- 1 - Grammatikunderstøttet mønstergenkendelse af maskinlæsbar tekst.

Størrelse: px
Starte visningen fra side:

Download "- 1 - Grammatikunderstøttet mønstergenkendelse af maskinlæsbar tekst."

Transkript

1 - 1 - Grammatikunderstøttet mønstergenkendelse af maskinlæsbar tekst. Tom Brøndsted Center for PersonKommunikation Aalborg Universitet postboks 159, 9100 Aalborg e-post: tb@cpk.auc.dk Indledning Dette bidrag beskriver en algoritme til grammatikunderstøttet mønstergenkendelse af maskinlæsbar tekst, det vil i store træk sige en genkendelsesrutine, der tager en sekvens af maskinlæsbare tegn som input og ændrer den til en anden sekvens af tegn, der på én gang "ligner" inputsekvensen mest muligt og samtidig er i grammatisk overensstemmelse med en prædefineret grammatik. Den beskrevne algoritme bygger på metoder anvendt i moderne talegenkendelsesteknologi, først og fremmest et Tokenpassing -paradigme introduceret af S.J. Young i 1989 [1]. Algoritmen er blevet implementeret i en tekstgenkender, designet og udviklet specielt med henblik på at understøtte Wizard-of-Oz (WOZ) eksperimenter med menneske-maskinedialogystemer. Men derudover har genkendelsesteknikken et potentielt meget bredt anvendelsesområde, spændende fra robust parsing af fejlbehæftet input over intelligent stavekontrol til f.eks. automatiseret sammenligning af tekstvarianter (e.g. i forbindelse med studier af folkeviser, middelalderlige landskabslove etc.). Dette bidrag er delt i to underafsnit. Første del beskriver den konkrete baggrund for tekstgenkenderen, dens anvendelse i WOZ-forsøg, mens anden del er en gennemgang af den tilgrundliggende algoritme. 1. Tekstgenkenderen i WOZ-forsøg. Tekstgenkenderen har været anvendt til brugertests af et eksperimentelt dialogsystem, der tillader brugere telefonisk at få information og opnå pladsreservationer på danske indenrigsflyruter. Det meste af dette dialogsystem er blevet udviklet i regie af det danske STVF-finansierede rammeprogram "Spoken Language Dialogue Systems" i et samarbejde mellem de tre centre: Center for PersonKommunikation (Aalborg), Center for Kognitionsforskning (Roskilde) og Center for Sprogteknologi (København). Flybilletreservationssystemet er baseret på en generisk platform der interpretererer dialogsystemer implementeret i et dediceret dialogbeskrivelsessprog, og tekstgenkenderen skal ses som et første skridt på vejen til at udbygge platformen til et egentligt udviklingsmiljø, der helt generelt understøtter WOZ-forsøg. Systemet er beskrevet udførligt bl.a. i en række rapporter udgivet ved Aalborg Universitet [2]. Den genereriske platform, som tekstgenkenderen indgår i, består af en "Dialogue Communication Manager", der varetager kommunikationen mellem på den ene side en række eksterne enheder, talegenkender, talesyntese, telefonlinje og tekstgenkender

2 - 2 - og på den anden side selve dialogfortolkeren og natursprogsparseren. Dialogfortolkeren interpreterer dialogbeskrivelsen, der er implementeret i et særligt, delvis grafisk orienteret dialogbeskrivelsessprog (DDL, Dialogue Description Language, baseret på rekursive transitionsnetværk). Natursprogsbeskrivelsen er formaliseret vha. træk-baserede regler (APSG-format). Typisk er der også tilkoblet en database, da formålet med de fleste menneske-maskine-dialoger er at give brugere database-tilgang. I billetreservationssystemet indeholder databasen oplysninger om afgangstider, reservationer, rabatmuligheder osv. I WOZ-forsøg, hvor et menneske (wizard'en) intervenerer på maskine-siden og skjult for brugeren simulerer en større eller mindre delkomponent, er det afgørende at systemet er omgivet af egnede hjælpeværktøjer. Tekstgenkenderen har været anvendt i en sen, testbetonet fase af udviklingen af det omtalte billetreservationssystem, hvor det kun har været hensigten at simulere den akustiske talegenkendelse under kontrollerede omgivelser (ingen akustisk støj, forudsagt input genkendes altid korrekt etc.). Formålet med tekstgenkenderen i denne situation er at etablere en robust grænseflade mellem bruger/troldmand og dialogfortolker og parser. Troldmanden modtager over telefon brugerforespørgsler, som han/hun indtaster og sender videre til selve dialogsystemet. Dialogsystemet genererer selv tilbagesvar. Input til systemet kan i en sådan situation af forskellige grunde være uforudsagt af systemdesignerne. De vigtigste grunde er: 1) slåfejl af troldmanden 2) naiv eller ukooperativ brugerforespørgsel 3) mangel i delsprogsmodellering og -implementering. Fejlkilden kan med andre ord enten være 1) troldmanden, 2) brugeren eller 3) systemdesignerne. Undertiden skelner man mellem naive og ukooperative brugere. Det drejer sig dog hovedsagelig kun om en forskel i brugerens intention. Den typiske ukooperative bruger er mere interesseret i at gå på opdagelse i systemet end i at anvende det. Sjældnere er de egentlige og entydige naive forespørgsler, men man kan da forestille sig en bruger spørge flybilletreservationssystemet: Vil min kone afhente mig i lufthavnen?, Kan jeg have min afghanske fårehund med i flyet? osv. Fælles for naive og ukooperative forespørgsler er, at det ligger udenfor det praktisk mulige at implementere et dialogsystem, der genererer intelligente tilbagesvar. Principielt skelner tekstgenkenderen ikke mellem de forskellige fejlkilder. Alt input fra troldmanden omformes til tekststrenge, der ligner noget forudsagt. Dog er tekstgenkenderen i stand til at forkaste dele af input vha. garbage -modeller, dvs. tilføjelse af pseudoord i leksikon, der per definition altid har en vis middelstor lighed med input (se næste afsnit). Nedenfor er der eksempler på, hvordan tekstgenkenderen omformer uforudsagt input til en tekststreng, der er forudsagt i delsprogsgrammatikken designet til billetreservationssystemet. Eksemplerne, der bortset fra 3) er konstruerede (ikke fra de autentiske WOZ-tests), er relateret til de ovennævnte fejltyper :

3 - 3-1) I: "jegvgern ltodnse" O:"jeg vil gerne til odense" 2a) I: "kan jeg få min hund med mig til odense" O: "**** til odense" 2b) I: "asdlkjs" O: "ja syv ****" 3) I: ved ottetiden O: * otte ti * Karakteren * angiver at en del af input er forkastet vha. garbage -modeller. Udover at omforme inputstrengen til noget forudsagt genererer tekstgenkenderen også et mål for den globale afstand mellem input og output. Afstanden er 0 hvis input og output er identisk og ellers et tal, der kan interpreteres (og processeres) som udtryk for, hvor sikker genkenderen er på at have genkendt input korrekt. Systemet kan naturligvis konfigureres til helt at forkaste input, hvis afstanden til output er for stor. Endelig er det indbygget i genkendelsesalgoritmen, at input segmenteres i mindre enheder. En ordseperator (mellemrum) i input er for tekstgenkenderen blot en karakter helt på linje med bogstaver og andre tegn. Mellemrum danner ikke nødvendigvis grundlag for genkenderens egen segmentering i ord. F.eks. bliver første eksempel ovenfor segmenteret jeg v gern lt odnse, og tekstgenkenderen er i stand til at generere en lokal afstand mellem hvert eneste af disse segmenter og de tilsvarende segmenter i output (altså mellem jeg og jeg, mellem v og vil, mellem lt og til og mellem odnse og odense ). Denne egenskab er nyttig, hvis genkenderen f.eks. anvendes til sammenligning af tekstvarianter. Den ene tekstvariant vil da opfattes som grammatik (en grammatik der kun genererer tekstvarianten selv) og den anden som sætning. 2. Genkendelsesalgoritmen. Selve genkendelsesalgoritmen bygger som sagt på metoder anvendt i moderne talegenkendelsesteknologi. Af forståelseshensyn eksemplificeres algoritmerne ud fra en konkret problemstilling, hvor det drejer sig om at genkende sætninger som sekvenser af et endeligt antal ortografisk repræsenterede ord. Problemstillingen er selvfølgelig lingvistisk-teoretisk ikke særlig interessant, da orddannelsen på naturlige sprog er en kreativ proces. Det skal derfor betones, at genkendelsesalgoritmerne principielt også kan anvendes på andre lingvistiske størrelser, forudsat de kan beskrives som regelbundne sekvenser af mindre enheder: E.g. på sætninger som sekvenser af morfemer, på sætningsled eller på ord som sekvenser af morfemer eller fonemer (bogstaver) osv. For så vidt at en sætning enkelt betragtes som en regelbunden sekvens af ord, kan selve genkendelseproblematikken naturligt deles op i to delkomplekser: 1) Genkendelse af isolerede ord og 2) genkendelse af

4 - 4 - sammenføjede ord ( connected word recognition ). Denne opdeling har rod i taleteknologien, men giver også mening når det drejer sig om genkendelse af maskinlæsbar tekst. Isoleret genkendelse af talte ord eller kommandoer er efterhånden ved at blive almindeligt i forbindelse med de mest udbredte operativsystemer (MS Windows, Open Windows osv). Men isoleret ordgenkendelse kendes også fra stavekontrol i forbindelse med tekstbehandling. Stavekontrollen kan være mere eller mindre intelligent, når den foreslår ordkandidater for mindre slå- eller stavefejl, e.g. allerede for "alllerede", aldrig for "ladrig" osv. Problematikken er i begge tilfælde at finde den kandidat blandt et endeligt antal prædefinerede referenceord, som bedst ligner input, altså en typisk mønstergenkendelsesproblematik. Isoleret ordgenkendelse er en relativ simpel processeringsteknik, fordi den bygger på simple - forsimplede - forudsætninger. F.eks. er det tydeligt, at stavekontrol i forbindelse med tekstbehandling klamrer sig til brugerens ordsegementering og derfor ikke er i stand til at frembringe rimelige korrekturforslag til input som: jeg vil al drig nogensinde..., jegvil aldrig nogensinde... osv. At løse dette problem forudsætter, at man anvender syntaktisk viden. Tokenpassing-paradigmet introduceret af S.J. Young [1] er et elegant bud på, hvordan man kommer fra isoleret ordgenkendelse til genkendelse af sammenføjede ord (c: sætninger). I token-passing-algoritmen repræsenteres hvert ord som en ordmodel i form af et finite state netværk. Input forudsættes at være en sekvens af vektorer X 1... X T og tilstedeværelsen i en state j på et tidspunkt t implicerer at omkostningen ved at matche inputvektoren Xt er d(t). j Denne omkostning vil vi i det følgende kalde den lokale tæthed (local density). Hver mulig sekvens af states gennem ordmodellen i = i, i...i hvor i 0 1 t, 0 er initialt state og i er finalt, repræsenterer en måde, hvorpå modellen reproducerer t eller "ligner" input. Hvor godt en bestemt sekvens reproducerer input er udtrykt ved den globale, akkumulerede tæthed (global density). Denne tæthed beregnes som summen af lokale tætheder mellem hvert state i sekvensen og hver vektor i inputsekvensen. Hvor godt modellen ligner input er udtrykt ved den globale tæthed for den sekvens af states, som bedst reproducerer input. I klassisk genkendelsesteori er hovedproblemet derfor at finde den optimale sti gennem et finite state netværk, dvs. den sti som bedst matcher input. Token-passing-algoritmen er en optimal søgealgoritme, der anvender selve finite state netværket som "bogholderi", idet den propagerer tokens rundt i netværket. Dette minder om syntaktisk parsing ved hjælp af netværksparsere (e.g. RTN- eller ATN-parsing i modsætning til f.eks. chart-parsing). Ved isoleret ordgenkendelse anvendes tokens alene til at opbevare globale tætheder, og algoritmen kan parafraseres som nedenfor: Initialisering: Hvert initialt state i ordmodellen tager et token med værdien 0. Alle andre states tager et token med værdien ` Algoritme:

5 - 5 - For hver inputvektor t fra venstre mod højre: For hver state j i ordmodellen: Fremsend token til alle forbundne states og øg værdien med den lokale tæthed d j(t). For hver state j i ordmodellen: Find det token som har den mindste akkumulerede værdi og slet resten. Terminering: Undersøg alle finale states i ordmodellen. Det token, som har den mindste akkumulerede værdi, udtrykker modellens globale tæthed til input. Genkendelsesparadigmet kan sammenlignes med syntaktisk parsing: Initialiseringen indebærer en aksiomatisk antagelse af, at ordmodel og input er identisk på starttidspunktet. I syntaktisk top-down-parsing svarer det til, at man begynder at bygge et syntakstræ op ovenfra med et aksiomatisk startsymbol S. (antagelse: Input er en sætning). Hovedalgoritmen er en synkron søgestrategi, hvor input processeres "fra venstre mod højre". Dette minder om traditionel syntaktisk "left-to-right"-parsing, men i modsætning til f.eks. RTN-parsing er overgange altid mulige med en eller anden omkostning eller sandsynlighed. Termineringen er en normal evaluering af processeringen. Ved isoleret ordgenkendelse skal genkendelsesparadigmet appliceres på samtlige forudsagte ord. Det genkendte ord vil da være den model, der genererer den mindste afstand til input. Det skal understreges, at ordmodellerne kan have flere initiale states og flere finale states, ligesom algoritmen også tillader løkker (loops) og tomme overgange (jumps, skips). Token-paradigmet er som påvist af S.Young uafhængigt af modelstrukturen, sålænge denne struktur kan forstås og processeres som et finite state netværk. I taleteknologien er algoritmen da også med held blevet anvendt til både DTW- og Markov-baseret genkendelse af tale. Den her foreslåede applikation af paradigmet på maskinlæsbare tegn minder mest om DTW-processering ( Dynamic Time Warping ), og det er derfor naturligt at tage udgangspunkt i denne genkendelsesteknik. I DTW-genkendelse er hver ordmodel repræsenteret som et simpelt mønster (en template ) af tidssynkrone vektorer, og disse vektorer er af samme type som input til genkendelsesalgoritmen. Sådanne vektorer kaldes også time frames. Ved genkendelse af maskinlæsbare tegn svarer dette til, at både input og ordmodellerne bliver opfattet som sekvenser af tegn (bogstaver). Vektorerne er resultatet af akustisk processering af talesignaler, hvor man f.eks. prøver at fremdrage signalets spektrale information (e.g. formanterne) og abstrahere fra f.eks. grundtonen (mands- versus kvindestemme), som man med større eller mindre rette kan betragte som irrelevant. Til beregning af den lokale tæthed mellem en vektor i ordmodellen og en vektor i input anvender man normalt (tilnærmelser til) den euklidiske distance. Denne algoritme er, hvor simpel den end er, meget beregningstung, og heldigvis kan man klare sig med mindre tunge tabelopslag, når man skal uddrage den lokale tæthed mellem bogstaver (se nedenfor). DTWgenkendelsen kan nu illustreres som figur 1.

6 - 6 - Figur 1. DTW-genkendelse Hvert punkt i koordinatsystemet repræsenterer en lokal tæthed mellem en inputvektor og en vektor i ordmodellen. Søgningen tager sigte på at finde den optimale sti fra punktet 1,1 til T,J, dvs. stien der akkumulerer den mindste distance mellem model og input. Til dette formål designer man en beslutningsregel, der afgør hvordan og med hvilke omkostninger man kan propagerer mellem punkterne. Beslutningsreglen i figuren ovenfor svarer til, at ordmodellen opfattes som et finite state netværk der udover normale transitioner mellem successive states tillader loops og jumps (figur 2). Figur 2. Ordmodel som finite state netværk Ved genkendelse af maskinlæsbare ord er de enkelte states i modellen ikke vektorer, men karakterer (bogstaver). For at anvende DTW på maskinlæsbare karakterer må man altså finde en erstatning for den euklidiske distance til udregning af lokale tætheder. Man kan her overveje at tage udgangspunkt i den fysiske afstand mellem de enkelte karakterers placering på tastaturet ud fra betragtningen, at brugeren

7 - 7 - (troldmanden) måske en gang imellem rammer lidt skævt. Mere afgørende er det nok, at algoritmen erfaringsmæssigt også fungerer tilfredsstillende med en langt enklere tæthedsfunktion, der returnerer 0 hvis de to sammenlignede karakterer er identiske og e.g. 100 i andre tilfælde. Den til indledning omtalte tekstgenkender fungerer på denne måde. En udvidelse af token-paradigmet til genkendelse af sammenføjede ord er forholdsvis triviel. For det første må der tilføjes en sprogmodel (syntaks). Da token-paradigmet er snævert knyttet til teorien omkring endelige tilstandsmaskiner, er det tvingende at syntaks skildres som et finite state netværk på samme måde som ordmodellerne. Enhver der er opdraget med Chomsky vil her have sine betænkeligheder, men det er dog ikke værre end at man i princippet kan genkende sætninger vha. en ikkegrammatik (Nogram), et netværk der tillader ethvert ord at følge ethvert ord i sætningen. Syntaksnetværkets funktion er at indskrænke søgerummet for genkendelsen. For det andet må man skelne mellem fysiske ordmodeller (leksikaliserede enheder) og logiske ordmodeller (instanser af fysiske ordmodeller i syntaksnetværket, overgange i syntaksnetværket). Lokale tætheder beregnes på grundlag af afstanden mellem inputvektorer og vektorer i de fysiske ordmodeller, mens tokens propageres rundt i de logiske modeller. For det tredje kan den information, som propageres rundt i netværket vha. tokens, ikke begrænses til globale tætheder. Målet for genkendelsen er jo ikke blot at fastslå, hvor godt input matcher sprogmodellen, men også at uddrage den sti (c: sætning) der bedst reproducerer input. Derfor anvendes tokens også til opbevaring af sti- og tidsinformation. I den originale token-passing-algortime introduceret af S.Young benyttes en særlig datastruktur, word link records, til at holde styr på tokens ved knudepunkterne i syntaksnetværket. En anden måde, som er blevet implementeret i den indledningsvis omtalte tekstgenkender, er at forlægge bogholderiet til et eksternt chart. Dette har i det mindste en konceptuel fordel, idet man bedre får adskilt viden, bogholderi og egentlig processeringsstrategi (nærmest som i syntaktisk chart-parsing). Det omtalte chart er et simpelt koordinatsystem, hvor x-aksen repræsenterer tidsintervaller af input (time frames, ved tekstgenkendelse de enkelte karakterer i input) og y-aksen er states i syntaksnetværket. I de enkelte koordinater vedligholdes tokens med følgende struktur: global (akkumuleret) tæthed tid (x-oprindelse) state (y-oprindelse) transition (ordidentifikator) Algoritmen til sætningsgenkendelse kan herefter parafraseres: Initialisering: Hvert initialt state i syntaksmodellen tager et token: tæthed=0, tid=0, state=0, transition=null. Alle andre states tager et token: tæthed=`,tid=-1,state=-1, transition=null.

8 - 8 - Algoritme: For hver intputvektor t fra venstre mod højre: For hver state j i ordmodellerne: Fremsend token til alle forbundne states og øg værdien med den lokale tæthed d j(t). For hver state j i ordmodellerne: Find det token som har den mindste akkumulerede værdi og slet resten. For hvert koordinatpunkt t,y i chartet: Find bedste indkommende transition i og kopiér dens token til t,y. Initialisér udgående transitioner med samme token og sæt tid= t, state=y, transition=i. Terminering: Undersøg alle finale states t,y i chartet. Det token, som har den mindste akkumulerede værdi, udtrykker sprogmodellens globale tæthed til input. Den genkendte sætning udledes ved at man følger transitionerne fra det pågældende token tilbage gennem chartet til tidspunkt 0. Det ses at algoritmen på én gang er temmelig enkel (konceptuel, gennemskuelig og nem at implementere) og ret beregningstung. Kritisk er især beregningen af de lokale tætheder. Til genkendelse af en sætning med en længde på x karakterer vha. af en syntaks og et leksikon, hvor summen af ordenes længde er y karakter, skal der altså evalueres et antal tæthedsfunktioner svarende til x multipliceret med y. Til gengæld er den her foreslåede model til udregning af lokale tætheder langt mindre beregningstung end de tilsvarende tæthedsfunktioner i taleteknologien (Euklid, Probability Density Functions ). Som nævnt ovenfor kan man klare sig med enkle tabelopslag, Desuden kan man i algoritmen implementere forskellige pruning -strategier, der begrænser antallet af tæthedsberegninger. Det vil dog føre for vidt at komme ind på sådanne strategier i denne sammenhæng. Et andet problem er at genkendelsesalgoritmen kun kan anvendes på grammatikker af finite state-typen, mens moderne natursprogsprocessering som regel anvender trækbaserede formalismer (unifikation). Det er dog altid muligt at generere tilnærmelsesvis ækvivalente finite state-grammatikker. Unifikationsgrammatikker, hvor træk tager værdier fra et endeligt sæt, er principielt altid kontekstfri grammatikker (som defineret i Chomsky-hierarkiet), og der findes velbeskrevne algoritmer til konvertering af denne grammatiktype til næsten ækvivalente endelige overgangsnetværk. I flybilletreservationssystemet, hvor der anvendes en trækbaseret APSG-formalisme, er der udviklet unifikationsbaseret konverteringsværktøj, der kan genere finite-state grammatikker til anvendelse i både den akustiske genkendelse og i tekstgenkenderen [3]. Konverteringen kan styres til at prioritere divergerende synspunkter, hovedsagelig nøjagtighed eller størrelse. Stor nøjagtighed vil sige høj grad af ækvivalens. Dette øger ikke blot genkendelseskvaliteten, men desværre også processeringstiden, da meget

9 - 9 - nøjagtige netværk har mange states og mange overgange (i.e. logiske ordmodeller). Hvordan dette belaster token-paradigmet, fremgår af algoritmen ovenfor. Alternativt kan der genereres små og kompakte netværk, der til gengæld er mindre nøjagtige. En Nogram (se ovenfor) er den ekstreme udgave af et kompakt netværk med nedprioriteret ækvivalens. Et sådant netværk har blot en enkelt state samt et antal logiske ordmodeller svarende til antallet af fysiske. Endelig skal det nævnes, at genkendelsesalgoritmen, specielt når den anvendes på tale, ikke er videre velegnet til at forkaste input eller dele deraf. Dette er en ulempe, især når input på ingen måde er forudsagt af grammatikdesignerne. Det er nævnt ovenfor, at problemet kan afhjælpes med såkaldte garbage -modeller forstået som pseudo-ordmodeller, der matcher alle ord (også ukendte ord) med en vis middelstor afstand. I tekstgenkenderen er garbage-modeller repræsenteret som sekvenser af karakteren *, og tæthedsfunktionen returnerer altid en middelværdi for afstanden mellem * og andre karakterer. Garbage-modeller må naturligvis bindes til grammatiknetværket præcis som ægte ordmodeller. Det omtalte unifikationsbaserede grammatikkonverteringsprogrammel kan styres til at indsætte garbagemodeller hovedsagelig ud fra to forskellige synspunkter: Spotting og rejection. Ved spotting indsættes garbage-modeller som loops i de enkelte (udvalgte) states af grammatiknetværket. Dette gør genkenderen i stand til at spotte forudsagte ord og sætningsled i et ellers støjfyldt input. Ved rejection indsættes garbage-modeller som alternative transitioner parallelt med medlemmer af (udvalgte) ordklasser og sætningsled. Garbage-modeller opfattes i dette tilfælde som ukendte eller uforudsagte medlemmer af de pågældende ordklasser eller sætningsled. Spotting og rejection kan naturligvis kombineres. 3. Konklusion. Den beskrevne tekstgenkender anvender veldokumenterede algoritmer på en ny måde. Dette er den egentlige innovative side af nærværende bidrag. I forhold til tokenparadigmet introduceret af Young (der selv bygger videre på ældre rekursiv-dynamiske programmeringsalgoritmer: Viterbi, DTW), bringer de her bragte overvejelser kun lidt nyt (chart-strukturen og beregning af lokal tæthed mellem karakterer). Tekstgenkenderen er blevet implementeret og har været anvendt i konkrete WOZforsøg med et flyreservationssystem. I denne sammenhæng har den vist sig at være ekstrem anvendelig. Det er dog oplagt, at tekstgenkendelsesprincippet kan finde anvendelse også på områder som error recovery (robust parsing af fejlbehæftet indput), automatisk sammenligning af tekstvarianter og syntaksunderstøttet stavekontrol. Natursprogsprocessering er automatiseret analyse af naturlige sprog. For så vidt at input er ortografisk tekst, er en del af arbejdet dog allerede gjort. Analyse betyder jo basalt set segmentering,deling i mindre bestanddele, og bogstavbaserede skriftsystemer som det danske foreskriver (i reglen) en deling i ord. På tysk, hvor

10 substantiver stadig har stort begyndelsesbogstav, indebærer retskrivningen også en klassifikation. Et lille epigram af H.Heine ville uden ortografiens segmentering og klassifikation se sådan ud: dieeifersuchtisteineleidenschaftdiemiteifersuchtwasledenschafft I original ortografi "Die Eifersucht ist eine Leidenschaft, die mit Eifer sucht was Leiden schafft", hvilket jo nok er lidt mere forståeligt (og genkendeligt)! Ud fra principielle, epistemologiske overvejelser kan man nok med nogen ret hævde at et NLP-system, der ikke kan klare den usegmenterede streng, ikke fortjener betegnelsen NLP. Vi kræver jo heller ikke, at der er sat kryds og bolle i sætningen, før vi kan processere den! Sætningsgenkendelse, som det forstås i denne sammenhæng, indebærer, at også analysen i ord er en automatiseret proces. 4. Litteraturhenvisninger [1] S.J. Young, N.H. Russel, J.H.S. Thornton: Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems, Cambridge University, [2] N.O. Bernsen, T. Brøndsted, A. Bækgaard, D. Christensen, H. Dybkjær, L. Dybkjær, J. Kristiansen, L.B. Larsen, B. Lindberg, B. Music, L. Offersgaard, C. Povlsen: Spoken Language Dialogue Systems, Report 1-10, Aalborg University [3] T. Brøndsted: Grammar Conversion. Programs for Converting APSGs to RTNs and RTNs to FSNs and Word Pair Grammars, Aalborg University

Integration af akustisk genkendelse og natursprogsprocessering

Integration af akustisk genkendelse og natursprogsprocessering Integration af akustisk genkendelse og natursprogsprocessering Tom Brøndsted 0. Indledning Ud fra en stratificeret lingvistisk sprogopfattelse som Winograds model i figur 1 synes der ikke at være større

Læs mere

Stokastisk og heuristisk sprogmodellering.

Stokastisk og heuristisk sprogmodellering. Tom Brøndsted Institut for Kommunikation Aalborg Universitet Stokastisk og heuristisk sprogmodellering. Automatisk talegenkendelse (ASR) var i 60'erne og 70'erne domineret af to rivaliserende retninger:

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Nasser 9. april 20 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Villa 2. maj 202 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Sprogteknologi I Undervisningsplan Forårssemester 2009

Sprogteknologi I Undervisningsplan Forårssemester 2009 Sprogteknologi I Undervisningsplan Forårssemester 2009 Version 1 Patrizia Paggio 25/1/2009 6.feb: Lektion 1. Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog

Læs mere

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje.

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje. Maple Dette kapitel giver en kort introduktion til hvordan Maple 12 kan benyttes til at løse mange af de opgaver, som man bliver mødt med i matematiktimerne på HHX. Skærmbilledet Vi starter med at se lidt

Læs mere

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0 BAndengradspolynomier Et polynomium er en funktion på formen f ( ) = an + an + a+ a, hvor ai R kaldes polynomiets koefficienter. Graden af et polynomium er lig med den højeste potens af, for hvilket den

Læs mere

Sprogteknologi I Undervisningsplan Forårssemester 2008

Sprogteknologi I Undervisningsplan Forårssemester 2008 Sprogteknologi I Undervisningsplan Forårssemester 2008 Patrizia Paggio 27/9/2007 1 Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog Eksempler på applikationer

Læs mere

12.9.2012. Fagre, aktuelle verden talegenkendelse i Folketinget. Anne Jensen, redaktionssekretær

12.9.2012. Fagre, aktuelle verden talegenkendelse i Folketinget. Anne Jensen, redaktionssekretær 12.9.2012 Fagre, aktuelle verden talegenkendelse i Folketinget Anne Jensen, redaktionssekretær Referatet af Folketingets forhandlinger er siden efteråret 2007 blevet fremstillet ved hjælp af talegenkendelse,

Læs mere

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag? En computer forstår umiddelbart ikke de sprog vi mennesker taler og skriver. Inden for sprogteknologien (på engelsk: Natural Language Processing eller NLP), der er en gren af kunstig intelligens, beskæftiger

Læs mere

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik Datalogi C, RUC Forelæsning 22. november 2004 Henning Christiansen Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik Dagens program Hvad

Læs mere

1 Opsumering fra tidligere. 2 Dagsorden 3 BIMS. 4 Programtilstande. Statements/kommandoer (Stm) i bims. 3.1 Abstrakt syntaks for bims

1 Opsumering fra tidligere. 2 Dagsorden 3 BIMS. 4 Programtilstande. Statements/kommandoer (Stm) i bims. 3.1 Abstrakt syntaks for bims 1 Opsumering fra tidligere Hvis A er kontekstfrit, S er der et p > 0 s Alle s A hvor s p kan splittes op som s = uvxyz så argument 1-3 holder A er ikke kontekstfrit, hvis for ethvert bud på p kan findes

Læs mere

Noter til DM517 Beregnelighed

Noter til DM517 Beregnelighed Noter til DM517 Beregnelighed Jonas Nyrup 23. oktober 2011 Indhold 1 Et par noter 2 2 Regulære sprog 2 2.1 DFA................................. 2 2.1.1 Eksempler.......................... 3 2.2 NFA.................................

Læs mere

DM507 Algoritmer og datastrukturer

DM507 Algoritmer og datastrukturer DM507 Algoritmer og datastrukturer Forår 2018 Projekt, del II Institut for matematik og datalogi Syddansk Universitet 13. marts, 2018 Dette projekt udleveres i tre dele. Hver del har sin deadline, således

Læs mere

GESA, et GEnerelt System til Analyse af naturlige sprog, udformet som et oversætter-fortolker system med virtuel mellemkode

GESA, et GEnerelt System til Analyse af naturlige sprog, udformet som et oversætter-fortolker system med virtuel mellemkode Jens Erlandsen laml Njalsgade 96 DK 2300 kbh. S. GESA, et GEnerelt System til Analyse af naturlige sprog, udformet som et oversætter-fortolker system med virtuel mellemkode. Parsingsystemer til automatisk

Læs mere

R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik.

R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik. Bente Maegaard, Københavns Universitet, Institut for anvendt og m a t e m a t i s k lingvxstik, Njalsgade 96 2300 K ø b e n h a v n S R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik.

Læs mere

Aalborg Universitet, 2. juni 2004. Lasse Høgh. Rasmus Flyger Berg Andersen. Side 1 af 13

Aalborg Universitet, 2. juni 2004. Lasse Høgh. Rasmus Flyger Berg Andersen. Side 1 af 13 Denne rapport er et produkt af et INF6 projekt, i faget Verbal interaktion i multimodal kontekst. Rapporten dokumenterer udviklingen af et vejrudsigtssystem. Koden til systemet er at finde på den vedlagte

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Optimeringsproblem: man ønsker at finde bedste den kombinatoriske struktur (struktur opbygget af et endeligt antal enkeltdele) blandt mange mulige. Eksempler:

Læs mere

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau) Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter En sumkurve fremkommer ifølge definitionen, ved at vi forbinder en række punkter afsat i et koordinatsystem med rette

Læs mere

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for

Læs mere

Oversættere, ugeopgave 3

Oversættere, ugeopgave 3 Oversættere, ugeopgave 3 Anders jerg Pedersen (andersbp@me.com) 29. november 2009 Opgave 1 Vi konsrer først NFA er for grammatikken fra opgave 3.22 med produktionen tilføjet: Produktion NFA 0 A 1 C D 2

Læs mere

DM517:Supplerende noter om uafgørlighedsbeviser:

DM517:Supplerende noter om uafgørlighedsbeviser: DM517:Supplerende noter om uafgørlighedsbeviser: Jørgen Bang-Jensen October 9, 2013 Abstract Formålet med denne note er at give en form for kogebogsopskrift på, hvorledes man bygger et uafgørlighedsbevis

Læs mere

22 Hobe. Noter. PS1 -- Hobe. Binære hobe. Minimum-hob og maximum-hob. Den abstrakte datatype minimum-hob. Opbygning af hobe. Operationen siv-ned.

22 Hobe. Noter. PS1 -- Hobe. Binære hobe. Minimum-hob og maximum-hob. Den abstrakte datatype minimum-hob. Opbygning af hobe. Operationen siv-ned. 22 Hobe. Binære hobe. Minimum-hob og maximum-hob. Den abstrakte datatype minimum-hob. Opbygning af hobe. Operationen siv-ned. Indsættelse i hobe. Sletning af minimalt element i hobe. Repræsentation. 327

Læs mere

Afsnittet er temmelig teoretisk. Er du mere til det praktiske, går du blot til det næste afsnit.

Afsnittet er temmelig teoretisk. Er du mere til det praktiske, går du blot til det næste afsnit. Afsnittet er temmelig teoretisk. Er du mere til det praktiske, går du blot til det næste afsnit. XML (eng. extensible Markup Language) XML er en måde at strukturere data på i tekstform. På samme måde som

Læs mere

Hjerner i et kar - Hilary Putnam. noter af Mogens Lilleør, 1996

Hjerner i et kar - Hilary Putnam. noter af Mogens Lilleør, 1996 Hjerner i et kar - Hilary Putnam noter af Mogens Lilleør, 1996 Historien om 'hjerner i et kar' tjener til: 1) at rejse det klassiske, skepticistiske problem om den ydre verden og 2) at diskutere forholdet

Læs mere

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for

Læs mere

DM507 Algoritmer og datastrukturer

DM507 Algoritmer og datastrukturer DM507 Algoritmer og datastrukturer Forår 2013 Projekt, del I Institut for matematik og datalogi Syddansk Universitet 5. marts, 2013 Dette projekt udleveres i to dele. Hver del har sin deadline, således

Læs mere

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Tirsdag den 27. maj 2003, kl. 9.00 3.00 Opgave (25%) For konstanten π = 3.4592... gælder identiteten π 2 6 =

Læs mere

Eksempel på den aksiomatisk deduktive metode

Eksempel på den aksiomatisk deduktive metode Eksempel på den aksiomatisk deduktive metode Et rigtig godt eksempel på et aksiomatisk deduktivt system er Euklids Elementer. Euklid var græker og skrev Elemeterne omkring 300 f.kr. Værket består af 13

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Rekursion C#-version

Rekursion C#-version Note til Programmeringsteknologi Akademiuddannn i Informationsteknologi Rekursion C#-version Finn Nordbjerg 1 Rekursion Rekursionsbegrebet bygger på, at man beskriver noget ved "sig selv". Fx. kan tallet

Læs mere

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen.

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. FORSYNINGSSEKRETARIATET OKTOBER 2011 INDLEDNING... 3 SDEA...

Læs mere

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Grådige algoritmer. Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Grådige algoritmer Et generelt algoritme-konstruktionsprincip ( paradigme ) for

Læs mere

DM507 Eksamen Obligatorisk Opgave Rejseplanlægning

DM507 Eksamen Obligatorisk Opgave Rejseplanlægning Institut for Matematik og Datalogi Syddansk Universitet, Odense 21. februar 2011 LMF DM507 Eksamen Obligatorisk Opgave Rejseplanlægning 1 Problemet Denne opgave går ud på at lave et program, som ud fra

Læs mere

Tal. Vi mener, vi kender og kan bruge følgende talmængder: N : de positive hele tal, Z : de hele tal, Q: de rationale tal.

Tal. Vi mener, vi kender og kan bruge følgende talmængder: N : de positive hele tal, Z : de hele tal, Q: de rationale tal. 1 Tal Tal kan forekomme os nærmest at være selvfølgelige, umiddelbare og naturgivne. Men det er kun, fordi vi har vænnet os til dem. Som det vil fremgå af vores timer, har de mange overraskende egenskaber

Læs mere

Kaminsky DNS exploit

Kaminsky DNS exploit Syddansk Universitet DM829 Kaminsky DNS exploit Jan Christensen - 241189 Anders Knudsen 150885 12. maj 2012 Indhold 1 Indledning 2 2 Introduktion til DNS 2 2.1 Cache............................... 3 2.2

Læs mere

DM507 Algoritmer og datastrukturer

DM507 Algoritmer og datastrukturer DM507 Algoritmer og datastrukturer Forår 2018 Projekt, del II Institut for matematik og datalogi Syddansk Universitet 20. marts, 2019 Dette projekt udleveres i tre dele. Hver del har sin deadline, således

Læs mere

Vektorer og lineær regression

Vektorer og lineær regression Vektorer og lineær regression Peter Harremoës Niels Brock April 03 Planproduktet Vi har set, at man kan gange en vektor med et tal Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden

Læs mere

Vektorer og lineær regression. Peter Harremoës Niels Brock

Vektorer og lineær regression. Peter Harremoës Niels Brock Vektorer og lineær regression Peter Harremoës Niels Brock April 2013 1 Planproduktet Vi har set, at man kan gange en vektor med et tal. Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden.

Læs mere

Oprids over grundforløbet i matematik

Oprids over grundforløbet i matematik Oprids over grundforløbet i matematik Dette oprids er tænkt som en meget kort gennemgang af de vigtigste hovedpointer vi har gennemgået i grundforløbet i matematik. Det er en kombination af at repetere

Læs mere

Kursusgang 11. Oversigt: Sidste kursusgang Værktøjer til udvikling og implementering af HCI-design Oversigt over Java Swing

Kursusgang 11. Oversigt: Sidste kursusgang Værktøjer til udvikling og implementering af HCI-design Oversigt over Java Swing Kursusgang 11 Oversigt: Sidste kursusgang Værktøjer til udvikling og implementering af HCI-design Oversigt over Java Swing Design af brugerflader 11.1 Samme sted Forskellige steder Sidste kursusgang Samtidigt

Læs mere

VisiRegn: En e-bro mellem regning og algebra

VisiRegn: En e-bro mellem regning og algebra Artikel i Matematik nr. 2 marts 2001 VisiRegn: En e-bro mellem regning og algebra Inge B. Larsen Siden midten af 80 erne har vi i INFA-projektet arbejdet med at udvikle regne(arks)programmer til skolens

Læs mere

Prosodi i ledsætninger

Prosodi i ledsætninger Eksamensopgave 2 Dansk talesprog: Prosodi og syntaks Prosodi i ledsætninger Ruben Schachtenhaufen Indledning I denne opgave vil jeg undersøge nogle forhold vedrørende prosodi og syntaks i ledsætninger

Læs mere

Oversættere Skriftlig eksamen onsdag d. 24. januar 2007

Oversættere Skriftlig eksamen onsdag d. 24. januar 2007 Københavns Universitet Naturvidenskabelig Embedseksamen Oversættere Skriftlig eksamen onsdag d. 24. januar 2007 Eksamenstiden er to timer. Opgavernes vægt i procent er angivet ved hver opgave. Den skriftlige

Læs mere

26 Programbeviser I. Noter. PS1 -- Programbeviser I. Bevis kontra 'check af assertions' i Eiffel. Betingelser og bevisregler.

26 Programbeviser I. Noter. PS1 -- Programbeviser I. Bevis kontra 'check af assertions' i Eiffel. Betingelser og bevisregler. 26 Programbeviser I. Bevis kontra 'check af assertions' i Eiffel. Betingelser og bevisregler. Hvad er programverifikation? Bevisregel for 'tom kommando'. Bevisregel for assignment. Bevisregler for selektive

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Michael Jokil 11-05-2012

Michael Jokil 11-05-2012 HTX, RTG Det skrå kast Informationsteknologi B Michael Jokil 11-05-2012 Indholdsfortegnelse Indledning... 3 Teori... 3 Kravspecifikationer... 4 Design... 4 Funktionalitet... 4 Brugerflade... 4 Implementering...

Læs mere

Projektopgave Observationer af stjerneskælv

Projektopgave Observationer af stjerneskælv Projektopgave Observationer af stjerneskælv Af: Mathias Brønd Christensen (20073504), Kristian Jerslev (20072494), Kristian Mads Egeris Nielsen (20072868) Indhold Formål...3 Teori...3 Hvorfor opstår der

Læs mere

Basale forudsætninger. Sortering ved fletning med tre bånd, i to faser.

Basale forudsætninger. Sortering ved fletning med tre bånd, i to faser. 25 Sortering III. Basale forudsætninger. Sortering ved fletning med tre bånd, i to faser. Sortering ved fletning, med fire bånd, i én fase (balanceret fletning). Polyfase fletning med tre bånd. Generaliseret

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Andreas Lauge V. Hansen klasse 3.3t Roskilde HTX

Andreas Lauge V. Hansen klasse 3.3t Roskilde HTX IT -Eksamen Andreas Lauge V. Hansen klasse 3.3t Roskilde HTX [Vælg en dato] Indhold Indledning... 2 Teori... 3 Hvorfor dette design... 4 Produktet... 4 Test og afprøvning... 9 Konklusion... 10 Indledning

Læs mere

Lagervisning. Dina Friis, og Niels Boldt,

Lagervisning. Dina Friis, og Niels Boldt, Lagervisning Dina Friis, dina@diku.dk og Niels Boldt, boldt@diku.dk 6. april 2001 Kapitel 1 Sammenfatning Dette dokument er et eksempel på en delvis besvarelse af G-opgaven stillet på Datalogi 0 2000-2001.

Læs mere

Studieretningsprojekter i machine learning

Studieretningsprojekter i machine learning i machine learning 1 Introduktion Machine learning (ml) er et område indenfor kunstig intelligens, der beskæftiger sig med at konstruere programmer, der kan kan lære fra data. Tanken er at give en computer

Læs mere

Hvad er formel logik?

Hvad er formel logik? Kapitel 1 Hvad er formel logik? Hvad er logik? I daglig tale betyder logisk tænkning den rationelt overbevisende tænkning. Og logik kan tilsvarende defineres som den rationelle tænknings videnskab. Betragt

Læs mere

Guide til din computer

Guide til din computer Guide til din computer Computerens anatomi forklaret på et nemt niveau Produkt fremstillet af Nicolas Corydon Petersen, & fra Roskilde Tekniske Gymnasium, kommunikation & IT, år 2014 klasse 1.2 12-03-2014.

Læs mere

IDAP manual Analog modul

IDAP manual Analog modul IDAP manual Analog modul Dato: 15-06-2005 11:01:06 Indledning Til at arbejde med opsamlede og lagrede analoge data i IDAP portalen, findes en række funktions områder som brugeren kan anvende. Disse områder

Læs mere

Bliv opdaget på Internettet! - 10 gode råd til at optimere din hjemmeside til søgemaskiner

Bliv opdaget på Internettet! - 10 gode råd til at optimere din hjemmeside til søgemaskiner Bliv opdaget på Internettet! - 10 gode råd til at optimere din hjemmeside til søgemaskiner Af Henrik Bro og Martin T. Hansen I har måske allerede en flot, og informativ hjemmeside. Og alle jeres kursister

Læs mere

Matematik, maskiner og metadata

Matematik, maskiner og metadata MATEMATIK, MASKINER OG METADATA VEJE TIL VIDEN Matematik, maskiner og metadata af CHRISTIAN BOESGAARD DATALOG IT Development / DBC 1 Konkrete projekter med machine learning, hvor computersystemer lærer

Læs mere

Emneopgave: Lineær- og kvadratisk programmering:

Emneopgave: Lineær- og kvadratisk programmering: Emneopgave: Lineær- og kvadratisk programmering: LINEÆR PROGRAMMERING I lineær programmering løser man problemer hvor man for en bestemt funktion ønsker at finde enten en maksimering eller en minimering

Læs mere

12 TOLERANCER 1 12 TOLERANCER

12 TOLERANCER 1 12 TOLERANCER 12 TOLERANCER 12 TOLERANCER 1 12.1 Tolerancer 2 12.1.1 Betonelementers mål 2 12.1.2 Byggepladsmål 2 12.1.3 Grundlæggende tolerancebegreber 3 12.1.4 Vejledende beregning til valg af toleranceangivelser

Læs mere

HMM- Based Con,nuous Sign Language Recogni,on Using Stochas,c Grammars

HMM- Based Con,nuous Sign Language Recogni,on Using Stochas,c Grammars HMM- Based Con,nuous Sign Language Recogni,on Using Stochas,c Grammars Hermann Hienz, Britta Bauer, Karl-Friedrich Kraiss, 1999 Kogn.- Forskn. II, IT og Kogn., Kbh., Anders Grove, 18. september 2010 Formål

Læs mere

Der er også mange ekstra aktiviteter på Widgits hjemmeside med engelske læringsaktiviteter og sociale aktiviteter klar til brug.

Der er også mange ekstra aktiviteter på Widgits hjemmeside med engelske læringsaktiviteter og sociale aktiviteter klar til brug. Kommuniker: Symbolskrivning 2 Eksempelmiljøer Kommuniker: Symbolskrivning 2 har en stærk facilitet til skærmtavler, der kan understøtte skribenter. Sammen med programmet leveres der et antal eksempelmiljøer,

Læs mere

Skriftlig Eksamen Diskret Matematik (DM528)

Skriftlig Eksamen Diskret Matematik (DM528) Skriftlig Eksamen Diskret Matematik (DM528) Institut for Matematik & Datalogi Syddansk Universitet Tirsdag den 20 Januar 2009, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger, notater etc.) samt brug

Læs mere

DM507 Algoritmer og datastrukturer

DM507 Algoritmer og datastrukturer DM507 Algoritmer og datastrukturer Forår 2016 Projekt, del III Institut for matematik og datalogi Syddansk Universitet 20. april, 2016 Dette projekt udleveres i tre dele. Hver del har sin deadline, således

Læs mere

Om at løse problemer En opgave-workshop Beregnelighed og kompleksitet

Om at løse problemer En opgave-workshop Beregnelighed og kompleksitet Om at løse problemer En opgave-workshop Beregnelighed og kompleksitet Hans Hüttel 27. oktober 2004 Mathematics, you see, is not a spectator sport. To understand mathematics means to be able to do mathematics.

Læs mere

Egenskaber ved Krydsproduktet

Egenskaber ved Krydsproduktet Egenskaber ved Krydsproduktet Frank Nasser 23. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Sortering. Eksempel: De n tal i sorteret orden

Sortering. Eksempel: De n tal i sorteret orden Sortering 1 / 34 Sortering Input: Output: Eksempel: n tal De n tal i sorteret orden 6, 2, 9, 4, 5, 1, 4, 3 1, 2, 3, 4, 4, 5, 9 2 / 34 Sortering Input: Output: Eksempel: n tal De n tal i sorteret orden

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Roskilde Tekniske Gymnasium. Eksamensprojekt. Programmering C niveau

Roskilde Tekniske Gymnasium. Eksamensprojekt. Programmering C niveau Roskilde Tekniske Gymnasium Eksamensprojekt Programmering C niveau Andreas Sode 09-05-2014 Indhold Eksamensprojekt Programmering C niveau... 2 Forord... 2 Indledning... 2 Problemformulering... 2 Krav til

Læs mere

Køreplan Matematik 1 - FORÅR 2005

Køreplan Matematik 1 - FORÅR 2005 Lineær algebra modulo n og kryptologi Køreplan 01005 Matematik 1 - FORÅR 2005 1 Introduktion Kryptologi er en ældgammel disciplin, som går flere tusinde år tilbage i tiden. Idag omfatter disciplinen mange

Læs mere

Henrik Bulskov Styltsvig

Henrik Bulskov Styltsvig Data Mining Henrik Bulskov Styltsvig Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks 260 4000 Roskilde Telefon: 4674 2000 Fax: 4674 3072 www.dat.ruc.dk Målsætning Data

Læs mere

Martin Geisler. Uge 49, 2001

Martin Geisler. Uge 49, 2001 Min dintprog-browser Martin Geisler Uge 49, 2001 Resumé Dette dokument beskriver tankerne bag min dintprog-browser, en browser skrevet i Java der skal kunne fortolke en mindre delmængde af HTML 4, kaldet

Læs mere

Det er en af de hyppigst forekommende udregninger i den elementære talbehandling at beregne gennemsnit eller middeltal af en række tal.

Det er en af de hyppigst forekommende udregninger i den elementære talbehandling at beregne gennemsnit eller middeltal af en række tal. Tre slags gennemsnit Allan C. Malmberg Det er en af de hyppigst forekommende udregninger i den elementære talbehandling at beregne gennemsnit eller middeltal af en række tal. For mange skoleelever indgår

Læs mere

Kom godt i gang med internettet

Kom godt i gang med internettet Kom godt i gang med internettet Hver udgave af Kom godt i gang med internettet introducerer til et nyttigt eller interessant sted på internettet eller en lidt mere avanceret funktionalitet på dukapc en.

Læs mere

Projekt 4.6 Løsning af differentialligninger ved separation af de variable

Projekt 4.6 Løsning af differentialligninger ved separation af de variable Projekt 4.6 Løsning af differentialligninger ved separation af de variable Differentialligninger af tpen d hx () hvor hx ()er en kontinuert funktion, er som nævnt blot et stamfunktionsproblem. De løses

Læs mere

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning:

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning: Introduktion til EA3 Mit navn er Marc de Oliveira. Jeg er systemanalytiker og datalog fra Københavns Universitet og denne artikel hører til min artikelserie, Forsimpling (som også er et podcast), hvor

Læs mere

Oversættere Vejledende løsninger til Skriftlig eksamen onsdag d. 24. januar 2007

Oversættere Vejledende løsninger til Skriftlig eksamen onsdag d. 24. januar 2007 Københavns Universitet Naturvidenskabelig Embedseksamen Oversættere Vejledende løsninger til Skriftlig eksamen onsdag d. 24. januar 2007 Eksamenstiden er to timer. Opgavernes vægt i procent er angivet

Læs mere

Pædagogisk vejledning til. Materialesæt. Sphero. http://via.mitcfu.dk/99872760

Pædagogisk vejledning til. Materialesæt. Sphero. http://via.mitcfu.dk/99872760 Pædagogisk vejledning til Materialesæt Sphero http://via.mitcfu.dk/99872760 Pædagogisk vejledning til materialesættet Sphero Materialesættet kan lånes hos VIA Center for Undervisningsmidler og evt. hos

Læs mere

Eksperimentel matematik Kommentarer til tag-med opgaver

Eksperimentel matematik Kommentarer til tag-med opgaver Eksperimentel matematik Kommentarer til tag-med opgaver Hypotesedannelse I har alle produceret grafer af typen 0.8 0.6 0.4 0.2 0 0. 0.2 0.3 0.4 0.5 (de lilla punkter er fundet ved en strenglængde på 35,

Læs mere

Matematisk modellering og numeriske metoder. Lektion 16

Matematisk modellering og numeriske metoder. Lektion 16 Matematisk modellering og numeriske metoder Lektion 16 Morten Grud Rasmussen 6. november, 2013 1 Interpolation [Bogens afsnit 19.3 side 805] 1.1 Interpolationspolynomier Enhver kontinuert funktion f på

Læs mere

Pointen med Differentiation

Pointen med Differentiation Pointen med Differentiation Frank Nasser 20. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk:

Læs mere

Vi har valgt at analysere vores gruppe ud fra belbins 9 grupperoller, vi har følgende roller

Vi har valgt at analysere vores gruppe ud fra belbins 9 grupperoller, vi har følgende roller Forside Indledning Vi har fået tildelt et skema over nogle observationer af gærceller, ideen ligger i at gærceller på bestemt tidspunkt vokser eksponentielt. Der skal nu laves en model over som bevise

Læs mere

Pointen med Funktioner

Pointen med Funktioner Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en

Læs mere

Indholdsfortegnelse. Vokal Command v.1 manual

Indholdsfortegnelse. Vokal Command v.1 manual Indholdsfortegnelse Installation... 2 Første gang programmet startes...7 Konfiguration... 7 Hvad er en kommando... 8 Fonetisk forskel... 8 Gemme dine indstillinger...9 Træning af kommando... 9 Avanceret

Læs mere

Matematik og samfundsfag Gini-koefficienten

Matematik og samfundsfag Gini-koefficienten Erik Vestergaard www.matematikfysik.dk Matematik og samfundsfag Gini-koefficienten Den såkaldte Gini-koefficient, introduceret i 92 i en artikel af den italienske statistiker, demograf og sociolog Corrado

Læs mere

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt.

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Merging og hashing Mål Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Dette emne er et uddrag af kurset DM507 Algoritmer og datastrukturer (2. semester). Mål

Læs mere

Andengradsligninger. Frank Nasser. 12. april 2011

Andengradsligninger. Frank Nasser. 12. april 2011 Andengradsligninger Frank Nasser 12. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette

Læs mere

Tue Tjur: Hvad er tilfældighed?

Tue Tjur: Hvad er tilfældighed? Tue Tjur: Hvad er tilfældighed? 16. 19. september 1999 afholdtes i netværkets regi en konference på RUC om sandsynlighedsregningens filosofi og historie. Som ikke specielt historisk interesseret, men nok

Læs mere

Regularitet og Automater

Regularitet og Automater Plan dregaut 2007 Regularitet og Automater Hvad er Regularitet og Automater? Praktiske oplysninger om kurset Ugens emner Introduktion til ugens opgaver 2 Regularitet og Automater Formål med kurset: at

Læs mere

Newton-Raphsons metode

Newton-Raphsons metode Newton-Raphsons metode af John V. Petersen Indhold Indledning: Numerisk analyse og Newton-Raphsons metode... 2 Udlede Newtons iterations formel... 2 Sætning 1 Newtons metode... 4 Eksempel 1 konvergens...

Læs mere

Klasse 1.4 Michael Jokil 03-05-2010

Klasse 1.4 Michael Jokil 03-05-2010 HTX I ROSKILDE Afsluttende opgave Kommunikation og IT Klasse 1.4 Michael Jokil 03-05-2010 Indholdsfortegnelse Indledning... 3 Formål... 3 Planlægning... 4 Kommunikationsplan... 4 Kanylemodellen... 4 Teknisk

Læs mere

Analytisk geometri. Et simpelt eksempel på dette er en ret linje. Som bekendt kan en ret linje skrives på formen

Analytisk geometri. Et simpelt eksempel på dette er en ret linje. Som bekendt kan en ret linje skrives på formen Analtisk geometri Mike Auerbach Odense 2015 Den klassiske geometri beskæftiger sig med alle mulige former for figurer: Linjer, trekanter, cirkler, parabler, ellipser osv. I den analtiske geometri lægger

Læs mere

Listen over reserverede ord er meget lang, men de væsentligste vil jeg beskrive her i denne artikel:

Listen over reserverede ord er meget lang, men de væsentligste vil jeg beskrive her i denne artikel: Denne guide er oprindeligt udgivet på Eksperten.dk SQL og ASP En artikel omkring simpel SQL og hvordan disse opbygges, udformes og udføres, sådan at man kan få et brugbart resultat i ASP. Dette ligefra

Læs mere

Grafer og graf-gennemløb

Grafer og graf-gennemløb Grafer og graf-gennemløb Grafer En mængde V af knuder (vertices). En mængde E V V af kanter (edges). Dvs. ordnede par af knuder. Grafer En mængde V af knuder (vertices). En mængde E V V af kanter (edges).

Læs mere

Kontakthierarkier i. Denne vejledning beskriver forskellige måder, man kan præsentere sin myndighed over for borgere og virksomheder

Kontakthierarkier i. Denne vejledning beskriver forskellige måder, man kan præsentere sin myndighed over for borgere og virksomheder Kontakthierarkier i digital post Denne vejledning beskriver forskellige måder, man kan præsentere sin myndighed over for borgere og virksomheder i digital post. Version: 3.0 Udarbejdet: november 2011 Udarbejdet

Læs mere

Ting man gør med Vektorfunktioner

Ting man gør med Vektorfunktioner Ting man gør med Vektorfunktioner Frank Nasser. april 11 c 8-11. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette

Læs mere

Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt.

Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt. Merging og hashing Mål Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt. Dette emne er et uddrag af kurset DM507 Algoritmer og datastrukturer

Læs mere