Statistiske metoder der kan understøtte opbygning af tekstbaserede ontologier

Størrelse: px
Starte visningen fra side:

Download "Statistiske metoder der kan understøtte opbygning af tekstbaserede ontologier"

Transkript

1 begrebsorienteret søgning dokument produktion opmærkning ontologier tesauruser styring af termer sproglig analyse viden og dokumenthåndtering kontrolleret sprog Statistiske metoder der kan understøtte opbygning af tekstbaserede ontologier Costanza Navarretta VID - rapport 7 Center for Sprogteknologi Februar 2005

2 Om VID: Viden- og Dokumenthåndtering med sprogteknologi Der er et udtalt behov hos danske virksomheder for at kunne supplere deres eksisterende sproglige kompetence og viden med sprogteknologiske værktøjer og metoder som dels kan støtte medarbejderne, dels forankre viden og processer i virksomhedens IT-systemer, dels danne grundlag for den udvikling der kræves hvis virksomhederne skal overleve og vokse i den stadigt mere globaliserede økonomi. VID-projekteteretforsknings-ogudviklingsprojekt der har til formål at udforske de forskellige muligheder som sprogteknologi frembyder inden for informationssøgning og dokumentproduktion, og at understøtte de deltagende virksomheder i at udvikle værktøjer til bedre udnyttelse af egen viden, samt til bedre og mere effektiv produktion af dokumentation, herunder flersproget dokumentation. Foruden CST omfatter projektet på den ene side virksomhederne Bang & Olufsen A/S, Zacco A/S og Nordea A/S, som i dette projekt udgør teknologiens brugere, på denandennavigosystemsa/sogankiro, som er teknologiproducenter. Projektet omfatter følgende forskningsopgaver: analyse af de tekstuelle data virksomhederne skal kunne håndtere for at kunne fastlægge tesauruser/ontologier for de relevante semantiske domæner, undersøgelse af den bedst egnede formalisme/teknologi til at udtrykke disse; afdækning og videreudvikling af sprogteknologiske komponenter til brug for automatisk tekstklassifikation og begrebsorienteret informationssøgning, indbefattende tilpasning af sprogteknologiske basismoduler til opmærkning af tekst; udforskning af flertydighed i tekstuelle data som kan vanskeliggøre informationssøgning; ligeledes den omvendte problematik: at samme indhold kan udformes forskelligt rent sprogligt og derfor kan være svær at fremfinde i store datamængder; forskning inden for kontrolleret sprog - også set i et flersproget perspektiv - til brug for dokumentproduktion; herunder analyse af den sprogstil og tone som virksomhederne ønsker at anvende, samt opstilling af modeller for dette sprog; undersøgelse af hvilke sprogteknologiske metoder der kan anvendes til denne kvalitetssikring af dokumentproduktionen i form af f.eks. termstyring og grammatikkontrol. Projektet er støttet af Center for IT-forskning og løber i perioden

3 Indhold 1 Indledning 2 2 Statistiske metoder til at gruppere data Clusteringsalgoritmer Lighed Hierarkiske algoritmer Ikke-hierarkiske algoritmer Eksperimenter med clustering Clustering afprøvet påpatenttekster Afprøvning af clustering med Infomap-demo Sammenfatning og perspektivering 17 Litteratur 19 1

4 Kapitel 1 Indledning At opbygge ontologier er en tids- og resursekrævende proces, selvom ontologierne kun modellerer begrænsede domæner. Traditionelt opbygges ontologier på baggrund af ekspertviden, men i den seneste tid har man forsøgt at opbygge eller evaluere ontologier ved at anvende store tekstsamlinger (korpora) der tilhører de pågældende domæner (Buitelar, Olejnik, Hutanu, Schutz, Declerck & Sintek 2004, Pedersen, Navarretta & Henriksen 2004). Fordeleneved atinddragetekstkorpora i opbygning af ontologier er mange. Først og fremmest kan korpora støtte og supplere den menneskelige introspektion i samlingen af den grundlæggende domænevokabular (både viden om begreber (klasser) og relationerne som holder mellem disse begreber). Brugen af korpora som videnkilde kan forhøje konsistensen og kvaliteten af de opbyggede ontologier. Processen i at opbygge ontologier kan blive mindre tids- og resursekrævende fordi uddragelsen af information fra tekster kan delvis automatiseres. Endelig afspejler teksterne den reelle brug af domænesproget. At afdække denne brug er især vigtigt når man bygger ontologier der skal anvendes i applikationer der tillader brugere at anvende naturssprogsudtryk i brugergrænsefladerne. Begrænsningerne ved at anvende tekster til ontologiopbygningen er føgende: det er ikke alt den nødvendige domæneviden der er udtrykt i tekster; det kan være svært for ontologiopbyggere at få overblik over et domæne som de ikke er eksperter i ud fra tekster alene. På grund af disse begrænsninger bør tekster ikke betragtes som den eneste videnkilde til opbygning af ontologier og domæneeksperter bør stadig deltage aktivt i denne proces. I (Jongejan, Pedersen & Navarretta 2004, Navarretta, Pedersen & Hansen 2004, Pedersen et al. 2004) beskrev vi hvordan termer og generelle ord som er centrale i domænet af patentbehandling blev, semiautomatisk uddraget fra et korpus bestående af standarddokumenter om patentbehandling, samlet af sagsbehandlere i Zacco A/S. De ord og termer som fandtes i patentkorpusset, suppleret med termer angivet af domæneeksperterne, har dannet grundlaget for en ontologi som modellerer domænet. 2

5 I denne rapport beskriver vi statistiske metoder til at støtte gruppering af domænerelevante termer/ord på baggrund af deres forekomster i tekster. Disse metoder går under navnet af clusteringsalgoritmer. Rapporten indeholder først en generel introduktion til brugen af de mest grundlæggende statistiske metoder til automatisk at gruppere lingvistiske data ud fra deres forekomster i tekster (kapitel 2). Dernæst beskrives i de mest anvendte typer af statistiske algoritmer til at gruppere data semantisk. I kapitel 3 beskrives de resultater vi har opnået ved at anvende clusteringsalgoritmer på Zaccos standard patentdokumenter. I kapitlet beskrives også resultaterne af at anvende avancerede clusteringsmetoder på engelske, opmærkede korpora for at finde semantisk relaterede ord til engelske ord som er oversættelse af nogle af de danske centrale ord i patentdomænet. I kapitlet sammenligner vi de automatisk opnåede grupperinger af semantisk relaterede ord med de grupperinger som blev fundet ved manuelt at analysere det samme korpus (Pedersen et al. 2004). Rapporten afsluttes med en kort konklusion og perspektivering. 3

6 Kapitel 2 Statistiske metoder til at gruppere data De seneste årtier er det blevet mere og mere almindeligt at anvende statistiske metoder og algoritmer i natursprogsbehandling. Eksempler på deområder som statistik anvendes på, er talegenkendelse, analyse af tekstkorpora, tagging, parsing, maskinoversættelse, tekstforståelse, informationsuddragelse og automatisk katalogisering. Inden for lingvistik anvendes statistik ofte til at beskrive hvordan sproget bliver brugt i det virkelige liv, fx hvor tit bestemte udtryk anvendes i bestemte resurser produceret af bestemte sprogbrugere (deskriptiv statistik). Statistik kan dog også anvendes til at forudsige sproglige fænomener i bestemte kontekster, og denne anvendelse er blevet mere og mere udbredt i den automatiske natursprogsbehandling. Alle statistiske algoritmer baseres på sandsynlighedsteorien som angiver sandsynligheden for at et bestemt fænomen kan forekomme i en bestemt kontekst ud fra de data som man har tidligere set. Sandsynlighedsteorien ligger til grund for opbygningen af sprogmodeller som anvendes til at forudsige ukendte data. Sandsynligheden for og nøjagtigheden af en sprogmodel afhænger af mængden af de data som er blevet brugt til at definere modellen. Desto flere data der ligger til grund for en sprogmodel, desto mere sandsynlig er modellen. De mest anvendte statistiske modeller inden for naturssprogsbehandling er de såkaldte n-gramsmodeller se blandt andre (Church 1988, Brown, Cocke, Pietra, Pietra, Jelinek, Lafferty, Mercer & Roossin 1990, Jelinek 1990). Også i n-gramsmodeller anvendes kendte data til at forudsige endnu ukendte data. De lingvistiske data som kan modelleres med n-gramsmodeller er mange og inkluderer fonemer, bogstaver og/eller tegn, ord, kombination af ord, sætninger, afsnit. Fx er det muligt at forudsige forekomsten af et ord o n ved at kigge på de forudgående ord 4

7 (ordets historie) og beregne sandsynlighedsfunktionen Pr for forekommende ord med formlen i (1): (1) Pr(o n o 1...o n 1 )= Pr(o 1...o n) Pr(o 1...o n 1 ) Desværre vokser parametrene i n-gramsmodellerne ret hurtigt når modellerne anvendes på store mængder data. En løsning på dette problem er blevet foreslået af Markov (Markov 1913) og kaldes for Markovsforudsætningen. I følge Markovsforudsætningen er det muligt at forudsige et objekt ved udelukkende at kigge på dets seneste historie, dvs. man kan reducere mængden af de observerede data til få objekter. Derfor kaldes ngramsmodeller også formarkovskæder. Idemestan- vendte n-gramsmodeller anvendes kun to, tre eller fire objekter (fx. fonemer, tegn, ord) til at forudsige kommende data, dvs man arbejder med n-gramsmodeller hvor n er lige med 2, 3 eller 4. De tilsvarende sprogmodeller kaldes da henholdsvis bigrams-, trigrams- og fire-gramsmodeller. Ved hjælp af n-gramsmodeller kan man blandt andet identificere klynger (clusters) af ord der ligner hinanden, og disse metoder anvendes i forskellige applikationer såsom talesprogsgenkendelse, tagging, stokastisk parsing, mm. Simple n-gramsmodeller kan anvendes til at gruppere ord der optræder i samme kontekster. Resultatet af at anvende en simpelt n-gramsmodel på tekster vil for eksempel være at indsætte ord der tilhører den samme ordklasse (fx. præpositioner, personlige pronominer, artikler) i de samme grupper. Mere problematisk er grupperinger af mere sofistikerede fænomener, som fx. indholdsord i forhold til deres betydning. Dette er især problematisk fordi indholdsord med bestemte betydninger ikke forekommer så hyppigt. det faktum at nogle lingvistiske data forekommer sjældent kaldes for the data sparseness problem. Der findes forskellige metoder for at tage højde for dette problem. Disse metoder kaldes diskonteringsmetoder eller jævningsmetoder (smoothing). I det følgende beskriver vi statistiske algoritmer til automatisk at opdele grupper af ord som ligner hinanden semantisk. Disse algoritmer går under navnet clustering. Hovedkilde for vores beskrivelse er Manning & Schütze (1999). 2.1 Clusteringsalgoritmer Clusteringsalgoritmer opdeler data i grupper eller klynger (clusters) på basis af graden af lighed mellem de enkelte data. Dvs. at objekter som ligner hinanden mest, indsættes i samme gruppe, mens objekter der er meget forskellige, placeres i adskilte grupper (se figure 2.1). I opbygningen af ontologier og/eller i klassificeringsapplikationer fokuseres der 5

8 RÅ DATA CLUSTERING KLYNGER AF DATA Figur 2.1: Clustering på semantisk lighed. Man antager at ord der semantisk ligner hinanden, ofte optræder i lignende kontekster. Mere præcist defineres semantisk lighed som graden hvorpå ord kan erstatte hinanden i samme kontekst (G.A.Miller & W.G.Charles 1991). Ligheden i clusteringsalgoritmer defineres via attributter og værdier. Mængden af attributter og værdier kaldes datarepræsentationsmodellen. Clusteringsalgoritmer har mange lighedspunkter med klassifikationsalgoritmer. Forskellen mellem de to typer algoritmer er at klassifikationsalgoritmer kræver en mængde af opmærkede eksempler (både positive og negative eksempler) for hver klassifikationsgruppe, mens clusteringsalgoritmer ikke forudsætter præeksisterende træningsdata. Derfor kaldes clustering for ikke overvåget eller automatisk klassificering (unsupervised or automatic classification). Clusteringsalgoritmer, som andre statistiske metoder, bruges til at analysere data ud fra deres forekomster eller til at generalisere over data. Der findes to hovedtyper af clusteringsalgoritmer: hierarkiske og ikke-hierarkiske (eller flade) algoritmer. I hierarkiske algoritmer bliver data organiseret i hierarkisk ordnede grupper, således at en knude i hierarkien er en subklasse af moderknuden. I ikke-hierarkiske clusteringsalgoritmer bliver data opdelt i grupper som ikke har nogen indbyrdes relation. De to algoritmetyper er illustreret i figur 2.2. I nogle clusteringsalgoritmer kan objekter kun tilhøre en gruppe. Disse algoritmer går under navnet af hårde algoritmer (hard clustering). I andre algoritmer kan det samme objekt forekomme i flere grupper. Disse algoritmer kaldes for bløde clusteringsalgoritmer (soft clustering). Hierarkiske algoritmer er (næsten) altid hårde, mens ikke-hierarkiske algoritmer kan være hårde eller bløde. Der findes en stor mængde af clusteringsalgoritmer inden for både den hierarkiske og den ikke-hierarkiske type. Desuden er der blevet defineret hybride algoritmer som kombinerer top-down og bottom-up strategier på forskellige måder og niveauer. 6

9 Hierarkisk clustering Ikke hierarkisk clustering Figur 2.2: Hierarkisk og ikke-hierarkisk clustering Lighed Clusteringsalgoritmer inddeler ord i grupper ved at måle ordenes lighedsgrad. Det er almindeligt i clusteringsalgoritmer at repræsentere ord som vektorer i et multidimensionelt rum. For eksempel kan man repræsentere ord som vektorer i dokumentrummet (hvor mange gange ord forekommer i hvert dokument), i ordrummet (forekomst med andre ord i hele korpus) og i rummet af grammatiske relationer. Man kan dog kun bruge grammatiske relationer hvis ens data er opmærket med oplysninger om disse relationer. Eksempler på substantiver repræsenteret i forhold til de adjektiver der modificerer dem, er givet i tabel 2.1. Når ord repræsenteres adj patent/er patentansøgning/er kvittering/er skrivelse/r europæisk/e officiel/lle Tabel 2.1: Substantiver repræsenteret i forhold til modificerende adjektiver som vektorer, kan semantisk lighed beregnes som lighed mellem disse vektorer. 7

10 I den enkleste repræsentation betragtes ord som binære vektorer, dvs. vektorer hvis indgange kun kan indeholde 0 eller 1 (fx. x = ). Man kan da nøjes med at tage de indgange i betragtning som ikke har nul-værdier. Lighedsgraden af to binære vektorer X og Y kan beregnes med følgende mængdeoperationer: tilpasningskoefficient (matching coefficient) Dice-koefficient Jaccard- (eller Tanimoto-) koefficient overlapskoefficient kosinus Ved anvendelsen af tilpasningskoefficient tælles antallet af dimensioner hvor både X og Y ikke er lige nul: X Y I Dice-koefficient-operationen normaliseres på længden af vektorerne ved at dividerere med antallet af indgange som ikke er lig nul: 2 X Y X + Y Ved anvendelsen af Jaccard-koefficienten straffes få fælles indgange højere end i Dice-koefficient-operationen: X Y X Y Overlapskoefficienten har værdi lig 1 hvis hver indgang med værdi forskellig fra 0 i den første vektor også er forskellig fra nul i den anden vektor og viceversa: X Y min( X, Y ) Kosinus giver de samme resultater som Dice-koefficienten for vektorer med det samme antal indgange som ikke indeholder nul. I kosinus, dog, straffes tilfælde af forskellige typer indgange i de to vektorer mindre end i Dice-koefficient-operationen: X Y X x Y Bedre og mere præcise resultater opnås dog hvis ord repræsenteres som vektorrum af reelle tal fordi man kan angive flere oplysninger end til-stede/ikke-til-stede. En vektor af reelle tal x med n dimensioner består i serier af n reelle tal, hvor x i er 8

11 det i te element i x ( x sværdiideni te dimension): x = x 1 x 2... x n. Længden af en vektor defineres som i (2). (2) x = ni=1 x 2 i Dot-produktet af to vektorer defineres som i (3). (3) x y = n i=1 x y. Kosinus af to vektorer beregnes som i (4). (4) cos( x, y = x y x y = n i=1 x y n n i=1 x2 i i=1 y2 i En vektor siges at være normaliseret hvis dens længde følger den euklidiske norm, dvs. x = n i=1 x 2 i = 1. Kosinus for normaliserede vektorer er lige dot-produktet. Den euklidiske afstand mellem to vektorer måler hvor langt væk vektorerne er fra hinanden i vektorrummet. Den æuklidiske afstand er givet i (5). (5) x y = ni=1 (x i y i ) 2 Kosinus anvendt på normaliserede vektorer giver samme lighedsvægtning som den der måles med den euklidiske afstand Hierarkiske algoritmer Hierarkiske algoritmer følger bottom-up eller top-down strategier. Bottomup strategier starter med at indsætte hvert objekt (ord) i dets egen klynge. Dernæst samles klynger med den højeste lighed. Bottom-up strategier kaldes for agglomerative. Top-down strategier starter med en eneste klynge som indeholder alle objekter. Data bliver dernæst splittet i forskellige undergrupper på baggrund af objekternes indbyrdes forskellighed. Top-down strategier kaldes for divisive. Resultatet af hierarkiske clusteringsalgorimer er klynger af objekter organiseret i en træstruktur kaldet et dendogram. Træroden i dendogrammet er mængden 9

12 af alle ord, mens de terminale knuder er de enkelte ord. Ikke-terminale knuder består af grupper indeholdende objekter fra deres datterknuder. Ethvert niveau i dendogrammet repræsenterer derfor en opdeling af data i forskellige klynger. Lighedsfunktionen i hierarkiske algoritmer er altid monotonisk således at lighedsfunktionen ikke bliver større eller mindre under samlings- eller delingsprocessen: c, c,c S : min(sim(c, c )) sim(c, c c ) De mest anvendte lighedsfunktionstyper i hierarkiske metoder er følgende: enkel sammenknytning (simple link): lighed mellem de mest lige gruppemedlemmer komplet sammenknytning(complete link): lighed mellem de mest ulige gruppemedlemmer gennemsnitlig sammenknytning(group average): gennemsnitlig lighed mellem gruppemedlemmer, dvs. cos(x, y) De forskellige lighedsfunktionstyper resulterer i forskellige grupperinger af de samme data Ikke-hierarkiske algoritmer Ikke-hierarkiske algoritmer inddeler data i en mængde af adskilte klynger. De fleste algoritmer starter med en mængde af tilfældigt producerede klynger og dernæst flytter de ord fra den ene klynge til den anden indtil man har opnået en bestemt tærskel. Den mest anvendte ikke-hierarkiske hårde algoritme er K-means (MacQueen 1967). I K-means bliver klyngerne defineret gennem centermassen af elementerne i hver klynge (centroid), hvor centermassen beregnes som middelværdien af elementerne i klyngen. Middelværdien af to vektorer måles ofte som deres euklidiske afstand. Som angivet i afsnit angiver den euklidiske afstand hvor langt to vektorer ligger fra hinanden i vektorrummet: x j = ni=1 (x i y i ) 2 Målet med K-means algoritmen er at reducere forskellen mellem ord i den samme klynge og maksimere forskellen mellem ord i forskellige klynger. K-means-algoritme opererer på M som er mængden af alle objekter, mens k er et prædefineret heltal. K-means-algoritmens består af følgende trin: 1. udvælg k centroider, c 1,c 2,...,c k 2. alloker hver x i M til den klynge hvis centroid er tættest på x 10

13 3. beregn igen hver klynges centroid på baggrund af de elementer som klyngen indeholder 4. gå til trin 2 med mindre der er opnået et forudbestemt tærskel EM-algoritmen (Expectation Maximation) beregner en blanding af probabilitetsdistributioner og er en blød algoritme. Ideen bagved EM-algoritmen er at forskellige uafhængige faktorer medvirker til generering af data, men at vi kun kan se den endelige blanding, uden at have oplysning om de enkelte faktorer. EM-algoritmen er modelbaseret fordi den bruger forskellige modeller til at inddele data i klynger. I algoritmen optimeres afstanden mellem data og de anvendte modeller løbende. Enhver klynge repræsenteres med en parametrisk fordeling i form af en Gausskurve (et kontinuum) eller en diskret fordeling (Poisson fordeling). I EM-algoritmen modelleres data med en blanding af disse fordelinger og derfor kaldes EM-algoritmen for blanding af Gausskurver (Gaussian mixture). I EM-algoritmen bliver data inddelt i to dele: 1. data der kan observeres χ = x i, hvor hvert element x i =(x i1,...,x im ) T er vektoren som svarer til det i te datapunkt 2. data der er skjult,og derfor ikke kan observeres Z = z i. z ij ihvert z i = (z i1,...,z ik ) T er lig 1 hvis objektet i er et medlem af gruppe j, 0hvis dette ikke er tilfældet. Man kan gruppere data med EM-algoritmen hvis man kender typen af distributionen for de individuelle klynger. Man antager at enhver klynge er en Gausskurve. Man beregner løbende de mest sandsynlige værdier for dens distributionsparametre (gennemsnitsværdien og variansen). Samme objekt kan godt tilhøre forskellige klynger, dog er sandsynligheden for dets tilhørssted i hver klynge forskellig. EM-algoritmen løser iterativt de to reciprokt afhængige udsagn kendt som estimate expectation (skøn af forventede data) og maximize (maksimering). Givet at Θ er modellernes parametre, siger det første udsagn (estimate expetation) følgende: hvis Θ s værdier kendes, er det muligt at beregne de forventede værdier af den skjulte modelstruktur. Maximize-udsagnet siger følgende: hvis de forventede værdier af den skjulte modelstruktur er kendt, er det muligt at beregne den maksimale sandsynlighedsværdi (maximum likelihood value) forθ. EM-algoritmen bryder cirkulariteten i de to udsagn ved at initialisere Θ med en tilfældig værdi. EM-algoritmen består derefter i en iterativ serie af et E(xpectation)- trin efterfulgt af et M(aximation)-trin. EM-algoritmen er monoton, dvs. algoritmens resultater forbedres efter hver iteration. Der er ingen garanti for at EMalgoritmen finder den bedste gruppering. 11

14 Expectation- og Maximization-trinnene gentages så længe den logaritmiske sandsynlighedberegning kan forbedres op til en forudbestemt tærskel. Der er mange mulige applikationer for EM-algoritmen, og selve K-means algoritmen kan fortolkes som en hård version af EM-algoritmen. Desuden kan man anvende andre modeller end Gausskurverne i EM-algoritme. 12

15 Kapitel 3 Eksperimenter med clustering I dette kapitel beskrives nogle test af clusteringsteknikker på standarddokumenter fra patentdomænet (Jongejan et al. 2004) (afsnit 3.1, samt kørsel af clusteringsdemo fra et stort internationalt project Infomap (section 3.2). 3.1 Clustering afprøvet på patenttekster Vi har testet clustering på dokumenter fra vores patentdomæne ved hjælp af CMU-Cambridge Statistical Language Modeling Toolkit ( og Lnknet-systemet udviklet på MIT Lincoln Laboratory ( Standarddokumenterne fra patentdomænet er blevet konverteret fra WORD til tekstformat, tagget med morfosyntaktiske oplysninger og lemmatiseret som beskrevet i (Jongejan et al. 2004). Bigrams og trigramsmodeller for indholdsord fra patentdomænet blev uddraget, og der blev skabt sprogmodeller for disse med CMU-Cambridge Statistical Language Modeling Toolkit. Vi anvendte K-meansclustering og EM-clustering i Lnknet. Som lighedsparametre brugte vi bigrams og trigrams i teksterne for indholdsord. Resultaterne fra disse eksperimenter var klynger som både indeholdt enkelte, semantisk relaterede ord og ikke relaterede ord. Generelt disse resultater var dårligere end de resultater beskrevet i litteraturen for lignende data. Årsagen til dette er at vores testmateriale er ret begrænset størrelsesmæssigt, og at fælles kontekster for semantisk relaterede ord ikke har tilstrækkelig høj relativ frekvens. For at forbedre resultaterne af clustering udnyttede vi det faktum at standarddokumenterne i patentdomænet indeholder en del lister som fx. Albanien, Letland, Litauen og alternationer som fx. patentansøgning/oversættelse/.... Derfor opmærkede vi automatisk ord i lister og/eller alternationer og tilføjede denne observation som en af clusteringsparametrene. Desuden initialiserede vi EM- 13

16 algoritmen med resultaterne opnået ved at anvende K-means-clustering på vores data. Denne test gav ret blandede resultater. Nogle af klyngerne indeholdt data der klart er semantisk relaterede, andre indeholdt ord som ikke intuitivt synes at være relaterede. Eksempler på gode klynger er følgende: 1. Albanien, Letland, Litauen, Slovenien, Rumænien, Makedonien 2. Gambia, Ghana, Kenya, Lesotho,Malawi, Mozambique,Sierra Leone, Sudan, Swaziland, Tanzania, Uganda,Zimbabwe 3. gebyr, afgift, årsafgift, årsgebyr, fornyelsesafgift, kravgebyr 4. patentansøgning, grundansøgning, ansøgning, oversættelse, patent 5. rapport, indleveringsrapport, besvarelse 6. konceptkopi, bilag, skrift, kopi 7. skrivelse, kvittering, faktura I det følgende vil vi analysere data fra de ovenstående klynger. De første to klynger indeholder betegnelser af lande fra samme geografisek område, henholdsvis Østeuropa og Afrika. Landene i hver gruppe omfattes af samme patentlovgivning og patentbehandling i vores domæne. Den tredje klynge indeholder substantiver der har med betalinger at gøre. De sidste fire klynger er sværere at karakterisere. De fleste af objekterne i disse klynger er dokumenter, men det er sværere at karakterisere forskelle mellem data i de forskellige klynger fordi forskellige relationstyper holder mellem disse data. For at karakterisere disse forskelle har vi sammenlignet de automatisk opnåede klynger med de klasser som er blevet kodet manuelt i patentontologien (Pedersen et al. 2004). Klasserne i denne ontologi er lingvistisk motiverede i det de er blevet uddraget ud fra termer og andre relevante ord i Zacco A/S korpus af standarddokumenter. Sammenligningsresultaterne af de to typer data er følgende: Objekterne i en klynge svarer til instanser af en klasse i patentontologien: dette er tilfældet for alle ord i den første klynge som er instanser af klassen extentionland i ontologien. Objekter i en klynge er alle instanser eller underklasser af samme klasse i ontologien, men tilhører forskellige klassifikationsniveauer i ontologien: dette er tilfældet for objekterne i den tredje klynge. Alle ord i denne klynge optræder som underklasser af Betaling, dog er afgift overklasse for årsafgift og fornyelsesafgift, mens gebyr er overklasse for årsgebyr og kravgebyr. 14

17 Objekter i samme klynge tilhører forskellige klasser i ontologien. Dette er tilfældet for objekterne i fx klynge 4, hvor patentansøgning og grundansøgning er underklasser af ansøgning. Ansøgning er en underklasse af ansøgningsdokument som er en underklasse af dokument. Oversættelse i klynge 4 er klasiificeret under f dokument i ontologien, mens patent er en underklasse af convention. På trods af disse forskelle er det dog klart at der er en vis semantisk relation mellem patent og patentansøgning og at denne relation ikke er en hyponymisk relation (eller IS-A relation). Objekterne i klyngerne er ikke fundet i ontologien: dette er tilfældet for ord som skrift og skrivelse som ikke blev genkendt som termer eller centrale ord i domænet, (Navarretta et al. 2004, Jongejan et al. 2004). Konkluderende kan man sige at et stort antal af de automatisk uddragede klynger indeholder data som er semantisk relaterede, men at de semantiske relationer der holder mellem data i samme klynge ikke altid er de samme. Desuden kan relationerne mellem klyngerne heller ikke umiddelbart uddrages. 3.2 Afprøvning af clustering med Infomap-demo I vores anden række af eksperimenter har vi afprøvet den internet-baserede demo af en bayesisk clusteringsalgoritme på Stanford University ( implementeret under Infomap-projektet. Infomaps clustering er trænet på store engelske korpora opmærket med morfosyntaktiske oplysninger. Vi har afprøvet demoet med enkelte ord fra vores domæne oversat til engelsk. Demoet returnerer de ord som er mest relateret til disse i de corpora man vælger at køre demoet med. Vi har kørt demoet med clustering trænet på henholdsvis British National Corpus (BNC) og Wall Street Journal (WSJ). Resultaterne fra vores kørsler er givet i tabel 3.1. Data i 3.1 viser hvor forskellige resultater der opnås ved at træne samme algoritme på forskellige typer korpora, i dette tilfælde et almensprogligt korpus og et finansaviskorpus som Wall Street Journal. Resultaterne af clustering for ord som patent og document adskiller sig ikke meget fra de resultater vi har opnået med de danske tekster. Dog er resultaterne fra Infomap generelt bedre, da det anvendte træningsmateriale er meget større end vores patentkorpus. Resultaterne fra Infomap viser også at de relationer der holder mellem ord i samme klynge, kan være forskellige, fx er den relation der holder mellem copy og print helt klart af en anden natur end relationen der holder mellem copy og editor. I disse tilfælde ville resultaterne fra clusteringsalgoritmer forbedres hvis algoritmerne kunne udnytte lingvistisk viden om fx ord repræsenterer animerede eller ikke animerede entiteter, eller valensrelationer. 15

18 Korp nøgleord relateret ord BNC patent copyright registration registered statute infringement lawful register law WSJ patents infringement burroughs infringe infringed copyright court trademark genentech BNC document draft revised handwritten circulated paragraph documentation printed copy WSJ confidential detailed reviewed internal matters disclosure information contents BNC fee pay instalments monthly payment cancellation subscription sum salary WSJ commissions waived charging schwab s expense schwab deductibles payment extra BNC patent application applicant complaint registration contravention registered registry lodged WSJ patents fda interferon avonex berlex generic biogen osteoporosis BNC copy printed copied typed write letter edition print page WSJ printed page prints reporter edition handwritten editors writer BNC slovenia croatia territories armenia baltic georgia yugoslavia hercegovina ukraine serbia WSJ NONE Tabel 3.1: Resultater fra Infomap-clustering 16

19 Kapitel 4 Sammenfatning og perspektivering I denne rapport har vi beskrevet nogle af de mest anvendte statistiske metoder til at gruppere data fra store mængder tekster ud fra forskellige lighedskriterier. Vi har især fokuseret på clusteringsmetoder til at gruppere semantisk relaterede ord ud fra den antagelse at ord der kan optræde i samme kontekst ligner hinanden semantisk. I det sidste afsnit af rapporten har vi afprøvet EM-clusteringsteknikker på tekster fra vores patentdomæne og har sammenlignet nogle af de opnåede resultater med klasserne i en lingvistisk-baseret ontologi som er blevet manuelt opbygget ud fra de samme tekster. Resultaterne fra clustering trænet på vores korpus var for de fleste ord dårligere end resultaterne fra samme algoritmetype i litteraturen. Dette skyldes hovedsagelig størrelsen af vores korpus som er meget mindre end lignende træningskorpora. Ved at inkludere den observation i clustering at ord som optræder i forskellige typer af lister ofte også er relaterede til hinanden, har vi opnået bedre resultater for nogle af domænets indholdsord. Vi har sammenlignet data i de bedste klynger med den manuelle klassifikation af samme data i den domænespecifikke ontologi. Sammenligningen viste at de fleste ord i de automatisk uddragede klynger er semantisk relaterede, men at ordenes indbyrdes relation inden for samme klynge ikke er af samme type. Dette resultat bekræftes af kørslerne af clustering med Infomap-systemet fra Stanford Universitet på enkelte engelske ord, som er oversættelser af nogle af de samme ord vi har analyseret tidligere. Vi uddrog clusteringsresultater fra Infomap, hvor træningskorpora var henholdsvis British National Corpus og Wall Street Journal. Generelt kan vi konkludere at clusteringsteknikker kan støtte ontologiopbyggere 17

20 med at foreslå en første grov klassifikation af semantisk relaterede ord i domæner beskrevet af store mængder tekster. De opnåede klynger i denne klassifikation er dog af varierende kvalitet og kræver videre manuel bearbejdning. Vores test viser også at clusteringsteknikkernes resultater vil kunne forbedres hvis de kunne udnytte lingvistiske oplysninger som fx ordenes valens. 18

21 Litteratur Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D., Jelinek, F., Lafferty, J. D., Mercer, R. L. & Roossin, P. S. (1990), A statistical approach to machine translation, Computational Linguistics 16, Buitelar, P., Olejnik, D., Hutanu, M., Schutz, A., Declerck, T. & Sintek, M. (2004), Towards ontology engineering based on linguistic analysis, in Proceedings of LREC-2004, Lisboa, Portugal, pp Church, K. W. (1988), A stochastic parts program and noun phrase parser for unrestricted text, in Proceedings of ANLP 2, pp G.A.Miller & W.G.Charles (1991), Contextual correlates of semantic similarity, Language and Cognitive Processes pp Jelinek, F. (1990), Self-organized language modeling for speech recognition, in A. Waibel & K.-F. Lee, eds, Reedings in Speech Recognition, Morgan Kaufmann, CA, pp Jongejan, B., Pedersen, B. S. & Navarretta, C. (2004), Automatisk analyse af zaccos og ankiros materiale, VID-rapport 3, Center for Sprogteknologi. MacQueen, J. (1967), Some methods for classification and analysis of multivariate observations, in L. L. Cam & J. Neyman, eds, Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, Berkeley California, pp Manning, C. D. & Schütze, H. (1999), Foundations of Statistical Natural Language Processing, The MIT Press. Markov, A. A. (1913), An example of statistical investigation in the text of eugene onyegin illustrating couples of tests in chain, in Proceedings of the Academy of Sciences, Vol. 7, St. Petersburg, pp Navarretta, C., Pedersen, B. S. & Hansen, D. H. (2004), Human language technology elements in a knowledge organisation system -the vid project., in Proceedings of LREC-2004, Vol. 1, pp

22 Pedersen, B. S., Navarretta, C. & Henriksen, L. (2004), Building business ontologies with language technology techniques - the vid project, in Proceeding of ONTOLEX Workshop in conjunction with LREC 2004, pp

Sprogteknologi I Undervisningsplan Forårssemester 2009

Sprogteknologi I Undervisningsplan Forårssemester 2009 Sprogteknologi I Undervisningsplan Forårssemester 2009 Version 1 Patrizia Paggio 25/1/2009 6.feb: Lektion 1. Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog

Læs mere

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag? En computer forstår umiddelbart ikke de sprog vi mennesker taler og skriver. Inden for sprogteknologien (på engelsk: Natural Language Processing eller NLP), der er en gren af kunstig intelligens, beskæftiger

Læs mere

VID. VID-projektets mission. at foretage en række sprogteknologiske eksperimenter i et dynamisk trekantsmiljø: forskningsinstitution

VID. VID-projektets mission. at foretage en række sprogteknologiske eksperimenter i et dynamisk trekantsmiljø: forskningsinstitution Sprogteknologiske komponenter i ontologi og søgning Bolette Sandford Pedersen, Costanza Navarretta, Dorte Haltrup Hansen, Bart Jongejan Center for Sprogteknologi, KU VID-projektets mission at foretage

Læs mere

Sprogteknologi I Undervisningsplan Forårssemester 2008

Sprogteknologi I Undervisningsplan Forårssemester 2008 Sprogteknologi I Undervisningsplan Forårssemester 2008 Patrizia Paggio 27/9/2007 1 Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog Eksempler på applikationer

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

Automatisk identifikation af virksomhedens termer og nøgleord

Automatisk identifikation af virksomhedens termer og nøgleord Udkommer i Informationsspecialisten, november 2004 Viden- og dokumenthåndtering med sprogteknologi Bolette Sandford Pedersen, Costanza Navarretta, Dorte Haltrup, Bart Jongejan Center for Sprogteknologi,

Læs mere

Intro til design og brug af korpora

Intro til design og brug af korpora Intro til design og brug af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk Intro til design og brug korpuslingvistik af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog-

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Automatisk analyse af Zaccos og Ankiros tekstmateriale

Automatisk analyse af Zaccos og Ankiros tekstmateriale Automatisk analyse af Zaccos og Ankiros tekstmateriale Bart Jongejan, Bolette S. Pedersen, Costanza Navarretta VID-rapport nr. 3 Center for Sprogteknologi 2004 Center for Sprogteknologi 2003 Rapporten

Læs mere

- Hvad er det, og hvilke fordele kan opnås ved fælles løsninger?

- Hvad er det, og hvilke fordele kan opnås ved fælles løsninger? Semantik, ontologi, tesaurus mv. - Hvad er det, og hvilke fordele kan opnås ved fælles løsninger? Seniorforsker, Center for Sprogteknologi, Københavns Universitet Indhold Hvorfor er semantik relevant for

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Matematik, maskiner og metadata

Matematik, maskiner og metadata MATEMATIK, MASKINER OG METADATA VEJE TIL VIDEN Matematik, maskiner og metadata af CHRISTIAN BOESGAARD DATALOG IT Development / DBC 1 Konkrete projekter med machine learning, hvor computersystemer lærer

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL OVERSÆTTELSE AF SELSKABSRETLIG DOKUMENTATION. I den foreliggende

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

DiaSketching og afterminologisering hvornår er en term en term? Nordterm 2005 9. - 12. juni 2005 Reykjavik, Island

DiaSketching og afterminologisering hvornår er en term en term? Nordterm 2005 9. - 12. juni 2005 Reykjavik, Island DiaSketching og afterminologisering hvornår er en term en term? Nordterm 2005 9. - 12. juni 2005 Reykjavik, Island Jakob Halskov (jh.id@cbs.dk) Dept. of Computational Linguistics Copenhagen Business School

Læs mere

Efterspørgselsforecasting og Leveringsoptimering

Efterspørgselsforecasting og Leveringsoptimering Efterspørgselsforecasting og Leveringsoptimering 26.05.2011 Bjørn Nedergaard Jensen Berlingske Media 2 En af Danmarks største medieudgivere og leverandør af både trykte og digitale udgivelser. Koncernen

Læs mere

Notat. Den adaptive algoritme i De Nationale Test. Opbygning af test og testforløb. januar 2015

Notat. Den adaptive algoritme i De Nationale Test. Opbygning af test og testforløb. januar 2015 Notat Vedrørende: Den adaptive algoritme i De Nationale Test Olof Palmes Allé 38 8200 Aarhus N Tlf.nr.: 35 87 88 89 E-mail: stil@stil.dk www.stil.dk CVR-nr.: 13223459 Den adaptive algoritme i De Nationale

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Optimeringsproblem: man ønsker at finde bedste den kombinatoriske struktur (struktur opbygget af et endeligt antal enkeltdele) blandt mange mulige. Eksempler:

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 6.1 og 6.2 Betingede diskrete

Læs mere

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 6.1 og 6.2 Betingede diskrete

Læs mere

KLYNGEANALYSE. Kvantitativ analyse til gruppering af fastholdelsesfleksjobbere. Viden og Analyse / CCFC

KLYNGEANALYSE. Kvantitativ analyse til gruppering af fastholdelsesfleksjobbere. Viden og Analyse / CCFC Grupper af fastholdelsesfleksjobbere før og efter reformen 2013 KLYNGEANALYSE Kvantitativ analyse til gruppering af fastholdelsesfleksjobbere 13. oktober 2017 Viden og Analyse / CCFC 1. Indledning I forbindelse

Læs mere

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Sandsynlighedsregning 0. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 6. og 6. Betingede diskrete

Læs mere

Informationssøgning metoder og scenarier

Informationssøgning metoder og scenarier Informationssøgning metoder og scenarier Patrizia Paggio Center for Sprogteknologi Københavns Universitet patrizia@cst.dk Disposition Forskellige systemer IR, IE og QA Information Retrieval (IR) Boolean

Læs mere

Studieretningsprojekter i machine learning

Studieretningsprojekter i machine learning i machine learning 1 Introduktion Machine learning (ml) er et område indenfor kunstig intelligens, der beskæftiger sig med at konstruere programmer, der kan kan lære fra data. Tanken er at give en computer

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Grådige algoritmer. Et algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Grådige algoritmer. Et algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Grådige algoritmer Et algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Et algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Læs mere

Vinkelrette linjer. Frank Villa. 4. november 2014

Vinkelrette linjer. Frank Villa. 4. november 2014 Vinkelrette linjer Frank Villa 4. november 2014 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir Det islandske ordklasseopmærkede korpus Oversigt over foredraget: Hvor stammer projektet fra? Hvad er et ordklasseopmærket korpus? Hvordan

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Basale forudsætninger. Sortering ved fletning med tre bånd, i to faser.

Basale forudsætninger. Sortering ved fletning med tre bånd, i to faser. 25 Sortering III. Basale forudsætninger. Sortering ved fletning med tre bånd, i to faser. Sortering ved fletning, med fire bånd, i én fase (balanceret fletning). Polyfase fletning med tre bånd. Generaliseret

Læs mere

Test for strukturelle ændringer i investeringsadfærden

Test for strukturelle ændringer i investeringsadfærden d. 6.10.2016 De Økonomiske Råds Sekretariat Test for strukturelle ændringer i investeringsadfærden Dette notat redegør for de stabilitetstest af forskellige tidsserier vedrørende investeringsadfærden i

Læs mere

24-03-2009. Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S

24-03-2009. Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S 24-03-2009 Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S Problemstilling ved DBK integration i BIM Software Domæner og aspekter Det domæne, der primært

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Kom i gang med... Kapitel 11 Math: Formelredigering med OpenOffice.org. OpenOffice.org

Kom i gang med... Kapitel 11 Math: Formelredigering med OpenOffice.org. OpenOffice.org Kom i gang med... Kapitel 11 Math: Formelredigering med OpenOffice.org OpenOffice.org Rettigheder Dette dokument er beskyttet af Copyright 2005 til bidragsyderne som er oplistet i afsnittet Forfattere.

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Villa 2. maj 202 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Tietgenskolen - Nørrehus. Data warehouse. Database for udviklere. Thor Harloff Lynggaard DM08125

Tietgenskolen - Nørrehus. Data warehouse. Database for udviklere. Thor Harloff Lynggaard DM08125 Tietgenskolen - Nørrehus Data warehouse Database for udviklere Thor Harloff Lynggaard DM08125 Juni 2010 Indhold Beskrivelse... 3 Data warehouse... 3 Generelt... 3 Sammenligning... 3 Gode sider ved DW...

Læs mere

It-støttet excerpering og registrering af nye ord og ordforbindelser

It-støttet excerpering og registrering af nye ord og ordforbindelser It-støttet excerpering og registrering af nye ord og ordforbindelser Møde i Selskab for Nordisk Filologi 30. oktober 2008 Jakob Halskov Projektforsker, ph.d. Dansk Sprognævn jhalskov@dsn.dk Disposition

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Nasser 9. april 20 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

Kønsproportion og familiemønstre.

Kønsproportion og familiemønstre. Københavns Universitet Afdeling for Anvendt Matematik og Statistik Projektopgave forår 2005 Kønsproportion og familiemønstre. Matematik 2SS Inge Henningsen februar 2005 Indledning I denne opgave undersøges,

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kapitel 8.1-8.3 Tilfældig stikprøve (Random Sampling) Likelihood Eksempler på likelihood funktioner Sufficiente statistikker Eksempler på sufficiente statistikker 1 Tilfældig stikprøve Kvantitative

Læs mere

Korpusbaseret lemmaselektion og opdatering

Korpusbaseret lemmaselektion og opdatering Korpusbaseret lemmaselektion og opdatering Jørg Asmussen Afdeling for Digitale Ordbøger og Tekstkorpora Det Danske Sprog- og Litteraturselskab www.dsl.dk Program 1. Introduktion til DSL 2. Introduktion

Læs mere

Indholdsfortegnelse. Miljørigtige køretøjer i Aarhus. Effekter af en mere miljørigtig vognpark i Aarhus Kommune. Aarhus Kommune. Notat - kort version

Indholdsfortegnelse. Miljørigtige køretøjer i Aarhus. Effekter af en mere miljørigtig vognpark i Aarhus Kommune. Aarhus Kommune. Notat - kort version Aarhus Kommune Miljørigtige køretøjer i Aarhus Effekter af en mere miljørigtig vognpark i Aarhus Kommune COWI A/S Jens Chr Skous Vej 9 8000 Aarhus C Telefon 56 40 00 00 wwwcowidk Notat - kort version Indholdsfortegnelse

Læs mere

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Optimeringsproblem: man ønsker at finde bedste den kombinatoriske struktur blandt mange mulige. Dynamisk programmering Optimeringsproblem: man ønsker at finde

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt.

Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt. Merging og hashing Mål Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt. Dette emne er et uddrag af kurset DM507 Algoritmer og datastrukturer

Læs mere

SIMPLE OPGAVER GØR MATEMATIK SVÆRERE

SIMPLE OPGAVER GØR MATEMATIK SVÆRERE SIMPLE OPGAVER GØR MATEMATIK SVÆRERE Gennem tre årtier er sproget i de engelske eksamensopgaver i matematik ændret, så sætningerne nu er kortere, der er færre fagudtryk, og der bliver brugt færre matematiske

Læs mere

Henrik Bulskov Styltsvig

Henrik Bulskov Styltsvig Data Mining Henrik Bulskov Styltsvig Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks 260 4000 Roskilde Telefon: 4674 2000 Fax: 4674 3072 www.dat.ruc.dk Målsætning Data

Læs mere

Grundlæggende køretidsanalyse af algoritmer

Grundlæggende køretidsanalyse af algoritmer Grundlæggende køretidsanalyse af algoritmer Algoritmers effektivitet Størrelse af inddata Forskellige mål for køretid Store -notationen Klassiske effektivitetsklasser Martin Zachariasen DIKU 1 Algoritmers

Læs mere

NVivo-øvelser for PC. Når NVivo er åbent, kan importen ske på to måder:

NVivo-øvelser for PC. Når NVivo er åbent, kan importen ske på to måder: NVivo-øvelser for PC Før du går i gang med øvelserne, er det selvsagt nødvendigt at importere øvelsesmaterialet ind i NVivo. Der er her tale om fire nytårstaler (fra 1994, 2002, 2010 og 2012) som Word-dokumenter.

Læs mere

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for

Læs mere

Indkomster. Indkomstfordelingen 2007 2009:2. 1. Indledning

Indkomster. Indkomstfordelingen 2007 2009:2. 1. Indledning Indkomster 2009:2 Indkomstfordelingen 2007 1. Indledning Revision af datagrundlag Revision af metode Begrænsninger i internationale sammenligninger I bestræbelserne på at få skabt et mere dækkende billede

Læs mere

DM507 Algoritmer og datastrukturer

DM507 Algoritmer og datastrukturer DM507 Algoritmer og datastrukturer Forår 2012 Projekt, del II Institut for matematik og datalogi Syddansk Universitet 15. marts, 2012 Dette projekt udleveres i tre dele. Hver del har sin deadline, således

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Matematisk modellering og numeriske metoder. Lektion 8

Matematisk modellering og numeriske metoder. Lektion 8 Matematisk modellering og numeriske metoder Lektion 8 Morten Grud Rasmussen 18. oktober 216 1 Fourierrækker 1.1 Periodiske funktioner Definition 1.1 (Periodiske funktioner). En periodisk funktion f er

Læs mere

Aarhus Universitet 5. februar Meddelelse 2

Aarhus Universitet 5. februar Meddelelse 2 fdeling for Teoretisk Statistik IOSTTISTIK Institut for Matematiske Fag Preben læsild arhus Universitet 5. februar 2003 Meddelelse 2 Forelæsningerne i uge 6 (3-7.2) Ved forelæsningen den 4.2 gav Frank

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Køreplan Matematik 1 - FORÅR 2005

Køreplan Matematik 1 - FORÅR 2005 Lineær algebra modulo n og kryptologi Køreplan 01005 Matematik 1 - FORÅR 2005 1 Introduktion Kryptologi er en ældgammel disciplin, som går flere tusinde år tilbage i tiden. Idag omfatter disciplinen mange

Læs mere

Effektiv søgning på web-steder

Effektiv søgning på web-steder Effektiv søgning på web-steder 7. maj 1998 Udarbejdet af DialogDesign ved Rolf Molich, Skovkrogen 3, 3660 Stenløse Indhold 1. Indledning 3 1.1. Model for søgning 3 2. Forskellige former for søgning 4 2.1.

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

ST. KONGENSGADE 3, BAGHUSET, 1264 COPENHAGEN

ST. KONGENSGADE 3, BAGHUSET, 1264 COPENHAGEN KANT ST. KONGENSGADE 3, BAGHUSET, 1264 COPENHAGEN KSZ 100/70-11, 2016, Ball point on paper, 100 x 70 cm. PATTERN RECOGNITION MAGNUS PETTERSEN MIE OLISE KJÆRGAARD CAROLINE KRYZECKI CLAY KETTER 20. AUGUST

Læs mere

Reducér tiden med Taxon

Reducér tiden med Taxon Vores manuelle processer er minimeret med 75%, og vi er gået fra 4 til 1 medarbejder til åbning, sortering og distribution af ca. 40.000 breve årligt Jon Badstue Pedersen - Afdelingsleder, HR og digitalisering

Læs mere

Ekspertforudsigelser af renter og valutakurser

Ekspertforudsigelser af renter og valutakurser 87 Ekspertforudsigelser af renter og valutakurser Jacob Stæhr Mose, Handelsafdelingen INDLEDNING OG SAMMENFATNING Det er relevant for både pengepolitiske og investeringsmæssige beslutninger at have et

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Integration af flere forskellige værktøjer i oversættelsesprocessen. Nancy L. Underwood Center for Sprogteknologi

Integration af flere forskellige værktøjer i oversættelsesprocessen. Nancy L. Underwood Center for Sprogteknologi Integration af flere forskellige værktøjer i oversættelsesprocessen Nancy L. Underwood Center for Sprogteknologi Integration af forskellige værktøjer i oversættelsesprocessen Hvorfor? Oversigt Hvordan?

Læs mere

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål Hvad vi mangler fra onsdag Momenter som deskriptive størrelser Sandsynlighedsmål er komplicerede objekter de tildeler numeriske værdier til alle hændelser i en σ-algebra. Vi har behov for simplere, deskriptive

Læs mere

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag. Hvad vi mangler fra onsdag Vi starter med at gennemgå slides 34-38 fra onsdag. Slide 1/17 Niels Richard Hansen MI forelæsninger 6. December, 2013 Momenter som deskriptive størrelser Sandsynlighedsmål er

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Danmark er mindre urbaniseret end EU som helhed

Danmark er mindre urbaniseret end EU som helhed 11. august 16 16:9 Danmark er mindre urbaniseret end EU som helhed Af Anne Kaag Andersen og Henning Christiansen Danskerne samles i stigende grad i de større byer, men Danmark ligger i den halvdel af de

Læs mere

Hvad skal vi lave i dag?

Hvad skal vi lave i dag? p. 1/1 Hvad skal vi lave i dag? Repeterer lidt om diskrete sv. Standardfordelinger (binomial, Poisson, geometrisk) Stokastiske vektorer Diskrete stokastiske vektorer p. 2/1 Repetition Heltallige sv er

Læs mere

Årsplan for 7. klasse, matematik

Årsplan for 7. klasse, matematik Årsplan for 7. klasse, matematik I matematik bruger vi bogsystemet Sigma som grundmateriale. I systemet er der, ud over grundbogen, også kopiark og tests tilknyttet de enkelte kapitler. Systemet er udarbejdet

Læs mere

Mobning på arbejdspladsen. En undersøgelse af oplevelser med mobning blandt STEM-ansatte

Mobning på arbejdspladsen. En undersøgelse af oplevelser med mobning blandt STEM-ansatte Mobning på arbejdspladsen En undersøgelse af oplevelser med mobning blandt STEM-ansatte September 2018 Mobning på arbejdspladsen Resumé Inden for STEM (Science, Technology, Engineering & Math) var der

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Maskinsikkerhed Risikovurdering Del 2: Praktisk vejledning og metodeeksempler

Maskinsikkerhed Risikovurdering Del 2: Praktisk vejledning og metodeeksempler DS-information DS/ISO/TR 14121-2 2. udgave 2012-07-04 Maskinsikkerhed Risikovurdering Del 2: Praktisk vejledning og metodeeksempler Safety of machinery Risk assessment Part 2: Practical guidance and examples

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning:

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning: Introduktion til EA3 Mit navn er Marc de Oliveira. Jeg er systemanalytiker og datalog fra Københavns Universitet og denne artikel hører til min artikelserie, Forsimpling (som også er et podcast), hvor

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte Helle Sørensen Uge 9, onsdag SaSt2 (Uge 9, onsdag) Normalfordelingens venner 1 / 20 Program Resultaterne fra denne uge skal bruges

Læs mere

Algoritmeskabeloner: Sweep- og søgealgoritmer C#-version

Algoritmeskabeloner: Sweep- og søgealgoritmer C#-version Note til Programmeringsteknologi Akademiuddannelsen i Informationsteknologi Algoritmeskabeloner: Sweep- og søgealgoritmer C#-version Finn Nordbjerg 1/9 Indledning I det følgende introduceres et par abstrakte

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Automatisering af manuelle processer Dybdescreeningworkshop Slides til workshop 1 Oktober 2017

Automatisering af manuelle processer Dybdescreeningworkshop Slides til workshop 1 Oktober 2017 Automatisering af manuelle processer Dybdescreeningworkshop Slides til workshop 1 Oktober 2017 Indhold Værktøj Output Screeningsprocessen Oversigt over forløb 1. Forberedelse 2. Ledelsesworkshop 3. Dybdescreening

Læs mere

Hvem er vi? Kursus Introduktion. Kursuslærerne. Agenda for i dag

Hvem er vi? Kursus Introduktion. Kursuslærerne. Agenda for i dag Hvem er vi? Kursus Introduktion Anne Haxthausen ah@imm.dtu.dk Informatics and Mathematical Modelling Technical University of Denmark 100 studerende med forskellig baggrund: software teknologi It og Kom

Læs mere

3. klasse 6. klasse 9. klasse

3. klasse 6. klasse 9. klasse Børne- og Undervisningsudvalget 2012-13 BUU Alm.del Bilag 326 Offentligt Elevplan 3. klasse 6. klasse 9. klasse Matematiske kompetencer Status tal og algebra sikker i, er usikker i de naturlige tals opbygning

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Asbjørn Madsen Årsplan for 8. klasse Matematik Jakobskolen

Asbjørn Madsen Årsplan for 8. klasse Matematik Jakobskolen Årsplan for matematik i 8. klasse Årsplanen er opbygget ud fra kapitlerne i kernebogen Kontext+ 8. De forskellige kapitler tager udgangspunkt i matematikholdige kontekster, som eleverne på den ene eller

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Mandag den 27. maj 2002, kl. 9.00 13.00 Opgave 1 (25%) Denne opgave handler om multiplikation af positive heltal.

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Amalie og Marie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt af mundtlig

Læs mere

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt.

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Merging og hashing Mål Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Dette emne er et uddrag af kurset DM507 Algoritmer og datastrukturer (2. semester). Mål

Læs mere

ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE. Udfordring

ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE. Udfordring ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE Udfordring INDHOLDSFORTEGNELSE 1. Forløbsbeskrivelse... 3 1.1 Overordnet beskrivelse tre sammenhængende forløb... 3 1.2 Resume... 5 1.3 Rammer

Læs mere

Brugervejledning til løntermometeret

Brugervejledning til løntermometeret Brugervejledning til løntermometeret Dette er en brugervejledning til løntermometeret. Vejledningen er skrevet til de to personer, en leder og en medarbejderrepræsentant, som har ansvar for at bruge løntermometeret.

Læs mere