Stokastisk og heuristisk sprogmodellering.
|
|
- Helge Nøhr
- 4 år siden
- Visninger:
Transkript
1 Tom Brøndsted Institut for Kommunikation Aalborg Universitet Stokastisk og heuristisk sprogmodellering. Automatisk talegenkendelse (ASR) var i 60'erne og 70'erne domineret af to rivaliserende retninger: Mønstergenkendelse af hele ord og videnbaseret repræsentation i form af eksplicitte fonetiske og lingvistiske regler. I 80'erne blev mønstergenkendelsen forfinet. Udvidet anvendelse af statistiske teknikker og stokastiske modelleringsparadigmer (baseret først og fremmest på Skjulte Markov Modeller og kunstige neurale netværk) gjorde at man efterhånden blev i stand til at præsentere hæderligt fungerende ASR-systemer. Samtidig har den videnbaserede retning stort set ikke været i stand til at fremvise forbedringer [Moore 1992]. Som resultat af denne udvikling har ord som "regelbaseret" og "heuristisk" i dag fået en dubiøs klang i taleteknologien. For mange taleteknologer er udtrykkene slet og ret udtryk for en ineffektiv og forældet tilgang til ASR. Nogle ser desuden en særlig pointe i, at man med de statistiske modelleringsteknikker faktisk er i stand til at løse en række problemer uden at kende noget (eller ret meget) til dem! Hvad skal man så med heuristik og ekspertviden? Modsat er der også taleteknologer der netop beklager at moderne talegenkendelse ikke så meget bygger på indsigt i talesignalet som på efficiente træningsalgoritmer. Makhoul og Schwarz har ligefrem kaldt den stokastiske tilgang "ignorant-baseret" [Makhoul & Schwarz 1984]. Der er tale om en selvironisk bemærkning, da de selv har været vigtige bidragydere til den stokastiske retning (f.eks. har de introduceret den meget udbredte trifonmodellering [Schwarz et al. 1985]). Man kan opfatte den stokastiske tilgangs sejrsgang i 80'erne som et tegn på at man helt generelt ved alt for lidt om talesignaler samtidig med at det er svært at omsætte hvad man vitterlig ved (f.eks. om formanterne) til efficiente genkendelsesregler. Nøgternt set er der i øjeblikket ikke noget heuristisk alternativ til den stokatisk-statistiske teknik, når man arbejder med akustisk modellering. Til gengæld har de stokastisk-statistiske teknikker forplantet sig til andre områder af taleteknologien, hvor det måske er knapt så oplagt at anvende dem. Dette bidrag handler om sprogmodelleringen som er et sådant område. Sprogmodeller anvendes i moderne ASR-teknologi til at indgrænse søgerummet under den akustiske dekodning. Den information der anvendes under dekodningen af et talesignal til e.g. en streng af fonemsymboler er ud fra en stratificeret lingvistisk synsvinkel ikke blot af fonetisk-fonologisk art, men også leksikalsk, syntaktisk og semantisk. Dette er formodentlig ikke så forskelligt fra den måde talegenkendelse foregår hos mennesker. Grønnum og Thorsen noterer f.eks.: "Hvis Per siger ordet 'mat' isoleret, kan det godt være Lis opfatter det som 'mæt'; men siger Per 'mat i sokkerne', er Lis p.g.a. sammenhængen straks klar over, at sådan lyder altså Per's /a/, og hans /æ/ vil være endnu mindre lavt" [Grønnum & Thorsen 1991, s. 20]. I praksis er det altså ikke muligt at sætte en skarp grænse mellem "genkendelse af tale" og "forståelse af tale" hhv. mellem akustisk dekodning og syntaktisk-semantisk parsing. Den type information der anvendes til akustisk dekodning er i stor udstrækning ækvivalent med den viden der anvendes til natursprogsprocessering. Til gengæld må man nok sige, at der er formelle afvigelser mellem sprogmodeller anvendt til
2 akustisk dekodning og de grammatikformalismer (e.g. LFG'er, APSG'er, HPSG'er) der anvendes i moderne natursprogsprocessering. ASR-teknologien er i dag stort set altid baseret på varianter af en rekursiv dynamisk programmeringsalgoritme, kendt som Viterbi-algoritmen, der forudsætter at man er i stand til at beregne sandsynligheden for en bestemt sekvens af talesegmenter (f.eks. ord eller fonemer) givet en bestemt observationssekvens. Denne algoritme forudsætter at sprogmodeller repræsenteres som probabilistiske eller deterministiske finite state maskiner [Moore 1992 s. 237] [Brøndsted 1992]. Man kan forestille sig en sådan sprogmodel som et endeligt overgangsnetværk: Der er et endeligt antal noder og overgangene mellem noderne er akustiske modeller af f.eks. ord eller fonemer. Den enkelte akustiske model repræsenterer selv en finite state maskine, vel at mærke af den statistiske type (en skjult Markov Model). Hver mulig sti fra startnode til slutnode i netværket er udtryk for en grammatisk sekvens af ord/fonemer. Det skal for en ordens skyld understreges, at sådanne endelige overgangsnetværk selvfølgelig er i stand til at generere et uendelig antal sekvenser på samme måde som de formelt stærkere grammatiktyper der anvendes i natursprogsprocessering. I modsætning til akustisk modellering af talesegmenter er der på sprogmodelleringens område reel konkurrence fra den regelbaserede indfaldsvinkel. Sprogmodeller i moderne ASR-systemer kan derfor groft set henføres til to grundmodeller: 1) Deterministiske sprogmodeller baseret på binære indikatorfunktioner. Dvs. at sådanne modeller skelner mellem grammatiske og ugrammatiske ordsekvenser uden at tilordne sekvenserne sandsynligheder. Deterministiske sprogmodeller er stort set altid generereret af regler formuleret af lingvistiske eksperter. 2) Stokastiske sprogmodeller der tilordner ordsekvenser bestemte sandsynligheder. Disse modeller er altid trænet på et sprogligt korpus (omend man teoretisk ikke kan afvise at sandsynligheder også kan opstilles "manuelt" af eksperter). Tilhængere af de stokastiske sprogmodeller fremhæver gerne følgende: 1) Stokatiske sprogmodeller genererer sandsynligheder og har derfor større informationsværdi end deterministiske, der er rent Boolske. 2) Generering af stokatiske sprogmodeller kan let automatiseres og er derfor mindre ressourcekrævende end opstilling af regler til brug i en deterministisk model. 3) Da stokatiske sprogmodeller er resultatet af træning, er de ikke afhængige af usikker og ufuldstændig ekspertviden. Ingen af disse argumenter er imidlertid særlig holdbare. M.h.t. informationsværdien kan man også hævde, at fordelen er på de deterministiske sprogmodellers side. Stokastiske sprogmodeller er nemlig altid bundet til et endeligt udfaldsrum. Hovedtanken er, at sandsynligheden for en bestemt sætning S bestående af ordsekvensen w1 w2.. wq S = w1 w2...wq kan beregnes som sandsynligheden for w1 multipliceret med den konditionale sandsynlighed for w2 givet observationssekvensen w1, den konditionale sandsynlighed for w3 givet observationssekvensen w1 w2 etc.
3 P(S) = P(w1 w2... wq) = P(w1)P(w2 w1)p(w3 w1 w2)...p(wq w1 w2...wq-1) - hvor w1 og wq for nemheds skyld kan opfattes som pseudoord betegnende sætningsstart og -stop. Da den konditionale P(wQ w1 w2...wq-1) naturligvis ikke kan estimeres for alle ord og alle observationssekvenser, benytter man i praksis altid en tilnærmelse: P(wQ w1 w2...wq-1) (=) P(wQ wq-n+1...wq-1) dvs. sandsynligheden baseres alene på de forudgående N-1 ord. Dette leder frem til de såkaldte N-gram sprogmodeller, der i øjeblikket er de hyppigst anvendte i taleteknologien: Unigrammodeller (N=1), bigram-modeller (N=2) og trigram-modeller (N=3). I praksis er det ikke muligt at tilgodese mere end de 2 forudgående ord (som i trigram-modellerne), da størrelsen af sprogmodellen vokser eksponentielt i forhold til N. Betragter man sprogmodellen som et endeligt overgangsnetværk, vil hver mulig observationssekvens svare til en node, og hver node vil have et antal udgående transitioner svarende til antallet af mulige ord efter observationssekvensen. Til sammenligning er deterministiske sprogmodeller ikke nødvendigvis bundet til en prædefineret "vinduesstørrelse" (undtagelser er de såkaldte "word pair" grammatikker, som ikke skal omtales videre i denne sammenhæng). I de fleste tilfælde er det muligt at generere en fuldt eller tilnærmelsesvis ækvivalent finite state model af et delsprog beskrevet i f.eks. en kontekstfri formalisme (visse formelle begrænsninger er som bekendt påvist af Chomsky i 50'erne). Mange af de grammatikformalismer, der anvendes i moderne natursprogsprocessering, er i sidste ende kontekstfri. Det gælder eksempelvis unifikationsbaserede grammatikker, hvor atomare værdier tages fra endelige sæt. Derfor benyttes deterministiske sprogmodeller ofte i taleforståelsessystemer, hvor der indgår et modul til natursprogsprocessering med et delsprog beskrevet af en ekspert i en passende formalisme. Et eksempel er dialogsystemet "Minds" udviklet ved CMU, Pittsburgh. Sprogmodellerne, der anvendes under den akustiske dekodning, genereres dynamisk ud fra dialog-diskurs og semantiske grammatikker designet med henblik på natursprogsprocessering [Young 1990]. På lignende vis genereres sprogmodeller i et dialogsystem udviklet på CPK (Aaalborg) i samarbejde med CST (København) og CCI (Roskilde) [Brøndsted et al. 1994]. Heller ikke argumentet, at generering af stokastiske sprogmodeller er mindre ressourcekrævende end opstilling af regler for deterministiske modeller, er synderlig holdbart. Stokatiske sprogmodeller kræver anselige mængder træningsdata. I N-gram sprogmodeller vokser det sproglige korpus der er nødvendigt til træningen eksponentielt i forhold til N. En unigram-model kan genereres af et forholdsvist lille materiale (men er tilsvarende informationsfattig), mens en trigram-model kræver et langt større korpus. I realistiske dialogsystemer, hvor man sigter mod at genkende et bestemt, velafgrænset delsprog, kan man naturligvis kun anvende træningsdata, der vedrører domænet (e.g. billetreservation, turistinformation, varebestilling etc.). Typisk vil det dreje sig om transskriptioner af "real life" tale eller af simulerede dialoger (Wizard of Oz). Da tilvejebringelse af sådanne træningsdata kræver mange ressourcer, er der udviklet metoder, der muliggør træning på mindre korpora. En udbredt metode er "glatning" af N-gram modeller. Dette betyder at N-gram modellen afbalanceres med N-1, N-2... N-(N-1) statistik. Nedenstående er et eksempel på trigram-glatning efter [Jellinek et al. 1982]: P(w3 w1 w2)= p1 F(w1 w2 w3) + p2 F(w1 w2) + p3 f(w1)
4 F(w1 w2) F(w1) F(wi) - hvor F er antallet af forekomster af strengen i dets argument, F(wi) er antallet af ord i korpus, og p1, p2 og p3 er positive værdier og p1+p2+p3=1. I en "ægte" trigram-model vil sandsynligheden P(w3 w1 w2) være beregnet med p1=1, p2=0, p3=0, mens man i glattede udgaver trænet på små korpora typisk vil benytte e.g. p1=0.5, p2=0.25, p3=0.25. Det ses at N-gramglatning medfører en forringelse af informationsværdien af sprogmodellen og for så vidt må betragtes som en nødløsning. En anden udbredt løsning på utilstrækkelige træningsdata er at erstatte ordene i korpus med de tilsvarende semantiske (domænespecifikke) eller syntaktiske kategorier. Man taler da om "N-grams of word classes" eller "categorial N-grams". I denne type sprogmodeller får alle ord i én kategori samme sandsynlighed efter samme observationssekvens. Hvis f.eks. træningsdata har en skæv frekvensfordeling af navne på ugedage, og man fornuftigvis må antage at de bør have samme sandsynlighed, vil man typisk træne sprogmodellen på data, hvor ugedagene er erstattet af en pseudokategori <ugedag>. Denne træningsteknik leder frem til, at man også må sætte spørgsmålstegn ved det tredje og sidste argument for stokastisk sprogmodellering. Stokatisk sprogmodellering baserede på semantiske eller syntaktiske kategorier er selvfølgelig afhængige af heuristik og ekspertviden præcist som deterministiske sprogmodeller. Modviljen mod deterministiske sprogmodeller i taleteknologien er helt oplagt mere historisk end fagligt funderet. Dårlige erfaringer med akustisk modellering baseret på heuristik har medført, at der blandt mange er en generel mistro mod regler og ekspertviden. Dertil kommer, at selvlærende systemer epistemologisk kan gøre krav på at være en slags overordnede metateorier. Specielt i forbindelse med kunstige neurale netværk har denne tanke spillet en rolle. Brøndsted, T.: Viterbi- baseret talegenkendelse og -forståelse, Skriften på Skærmen 6, Århus Brøndsted, T., L. Larsen: "Representation of Acoustic and Linguistic Knowledge in Continous Speech Recognition", Spoken Language Dialogue Systems Rep. 5, Aalborg Giachin, E.: Automatic training of stochastic finite-state language models for speech understanding", i Proc. ICASSP, Grønnum, N., O. Thorsen: "Fonetik for sprogstuderende", 5.udg., København 1991 Jellinek, F., R.L. Mercer, L.R. Bahl: "Continous speech recognition", Handbook of Statistics, P.R. Krishnaiah (ed.), North Holland Makhoul, J., R. Schwarz: "Ignorance modelling", i J. Perkell, D.H. Klatt (eds) "Invariance and Variability in Speech Processes", Erlbaum Moore, R.K.: "Recognition - the stochastic modelling approach", i Chris Rowden (editor) "Speech Processing", Cambridge Prieto, N., E. Vidal: "Automatic learning of structural language models", i Proc. ICASSP, 1991.
5 Rulot, H., N. Prieto, E. Vidal: "Learning Accurace Finite-State Structural Models of Words through the ECGI algorithm", i Proc. ICASSP Schwarz, R., Y.L. Chow, O.A. Kimball, S. Roucos, M. Krasner, J. Makhoul: "Context-dependent modelling for acoustic-phonetic recognition of continous speech", i Proc. IEEE, Young, S.R.: "Use of dialogue, pragmatics and semantics to enhance speech recognition", i Speech Communication, vol. 9, 5/6 1990
Integration af akustisk genkendelse og natursprogsprocessering
Integration af akustisk genkendelse og natursprogsprocessering Tom Brøndsted 0. Indledning Ud fra en stratificeret lingvistisk sprogopfattelse som Winograds model i figur 1 synes der ikke at være større
Læs mere- 1 - Grammatikunderstøttet mønstergenkendelse af maskinlæsbar tekst.
- 1 - Grammatikunderstøttet mønstergenkendelse af maskinlæsbar tekst. Tom Brøndsted Center for PersonKommunikation Aalborg Universitet postboks 159, 9100 Aalborg e-post: tb@cpk.auc.dk Indledning Dette
Læs mereSprogteknologi I Undervisningsplan Forårssemester 2008
Sprogteknologi I Undervisningsplan Forårssemester 2008 Patrizia Paggio 27/9/2007 1 Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog Eksempler på applikationer
Læs mereSprogteknologi I Undervisningsplan Forårssemester 2009
Sprogteknologi I Undervisningsplan Forårssemester 2009 Version 1 Patrizia Paggio 25/1/2009 6.feb: Lektion 1. Introduktion til sprogteknologi Hvad er sprogteknologi Hvorfor er det svært at processere sprog
Læs mereEffectiveness of Data
The Unreasonable Effectiveness of Data Af Halevy, Norvig og Pereira Oversigt The unreasonableeffectiveness of Data Learning from Text at Web Scale Talegenkendelse Maskinoversættelse Generelt Semantisk
Læs mere12.9.2012. Fagre, aktuelle verden talegenkendelse i Folketinget. Anne Jensen, redaktionssekretær
12.9.2012 Fagre, aktuelle verden talegenkendelse i Folketinget Anne Jensen, redaktionssekretær Referatet af Folketingets forhandlinger er siden efteråret 2007 blevet fremstillet ved hjælp af talegenkendelse,
Læs mereGESA, et GEnerelt System til Analyse af naturlige sprog, udformet som et oversætter-fortolker system med virtuel mellemkode
Jens Erlandsen laml Njalsgade 96 DK 2300 kbh. S. GESA, et GEnerelt System til Analyse af naturlige sprog, udformet som et oversætter-fortolker system med virtuel mellemkode. Parsingsystemer til automatisk
Læs mereSprog og Multimedier. Redigeret af: Tom Brøndsted & Inger Lytje. RJ) Aalborg Universitetsforlag
Sprog og Multimedier Redigeret af: Tom Brøndsted & Inger Lytje RJ) Aalborg Universitetsforlag Sprog og Multimedier Redigeret af Tom Brøndsted & Inger Lytje 1997: Forfatterne. Omslagscollage: Roland Jensen
Læs mereSkriftlig Eksamen Beregnelighed (DM517)
Skriftlig Eksamen Beregnelighed (DM517) Institut for Matematik & Datalogi Syddansk Universitet Torsdag den 1 November 212, kl. 1 14 Alle sædvanlige hjælpemidler (lærebøger, notater etc.) samt brug af computer
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereFornyelsesteori med anvendelser: Punktprøve
Fornyelsesteori med anvendelser: Punktprøve May 9, 2003 For at få kredit for kurset Fornyelsesteori med anvendelser kræves at afleveringsopgave 1 og 2 samt nedenstående punktprøve besvares tilfredsstillende.
Læs mereTue Tjur: Hvad er tilfældighed?
Tue Tjur: Hvad er tilfældighed? 16. 19. september 1999 afholdtes i netværkets regi en konference på RUC om sandsynlighedsregningens filosofi og historie. Som ikke specielt historisk interesseret, men nok
Læs mereHMM- Based Con,nuous Sign Language Recogni,on Using Stochas,c Grammars
HMM- Based Con,nuous Sign Language Recogni,on Using Stochas,c Grammars Hermann Hienz, Britta Bauer, Karl-Friedrich Kraiss, 1999 Kogn.- Forskn. II, IT og Kogn., Kbh., Anders Grove, 18. september 2010 Formål
Læs mereDM517:Supplerende noter om uafgørlighedsbeviser:
DM517:Supplerende noter om uafgørlighedsbeviser: Jørgen Bang-Jensen October 9, 2013 Abstract Formålet med denne note er at give en form for kogebogsopskrift på, hvorledes man bygger et uafgørlighedsbevis
Læs mereLad os som eksempel se på samtidigt kast med en terning og en mønt:
SANDSYNLIGHEDSREGNING Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet Til gengæld kan vi prøve
Læs mereProsodi i ledsætninger
Eksamensopgave 2 Dansk talesprog: Prosodi og syntaks Prosodi i ledsætninger Ruben Schachtenhaufen Indledning I denne opgave vil jeg undersøge nogle forhold vedrørende prosodi og syntaks i ledsætninger
Læs mereEn martingalversion af CLT
Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske
Læs mereGrundtvigs Sandkasse
Introduction to the NFSG Sandbox Environment Computing, chcaa.io Aarhus University, Denmark April 23, 2019 Outline 1 2 3 Udvikling af computerbaseret forskning Aarhus Universitet har besluttet at understøtte
Læs mereFonemteori og talegenkendelse
Fonemteori og talegenkendelse Tom Brøndsted * & Jens Printz Madsen * Abstract Large vocabulary Speech recognition systems based on Hidden Markov Models modelling phonemes or units derived from phonemes
Læs mereOm hypoteseprøvning (1)
E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;
Læs mereDansk talegenkendelse
Taleteknologi & anvendelser Århus, 23. Januar 2004 1 af 25 Dansk talegenkendelse Lektor Børge Lindberg Speech & Multimedia Communication Division Afdeling for Kommunikationsteknologi Aalborg Universitet
Læs mereSkriftlig Eksamen Diskret Matematik (DM528)
Skriftlig Eksamen Diskret Matematik (DM528) Institut for Matematik & Datalogi Syddansk Universitet Tirsdag den 20 Januar 2009, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger, notater etc.) samt brug
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereMaskinlæring og AI i praksis. Erfaringer fra Danmark? Niels-Peter Rønmos
Maskinlæring og AI i praksis. Erfaringer fra Danmark? 14.02.2018 Niels-Peter Rønmos Niels-Peter Rønmos Erhvervsstyrelsen siden 2002 Chef data scientist Cand Oecon, Syddansk Universitet Centrale VirksomhedsRegister
Læs mere{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )}
Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet. Til gengæld kan vi prøve at sige noget om,
Læs mereSeksuel chikane på arbejdspladsen. En undersøgelse af oplevelser med seksuel chikane i arbejdslivet blandt STEM-ansatte
Seksuel chikane på arbejdspladsen En undersøgelse af oplevelser med seksuel chikane i arbejdslivet blandt STEM-ansatte Juni 2018 Seksuel chikane på arbejdspladsen Resumé Inden for STEM (Science, Technology,
Læs mereEksamensopgaver i DM17, Januar 2003
Eksamensopgaver i DM17, Januar 2003 Skriftlig Eksamen Automatteori og Beregnelighed (DM17) Institut for Matematik & Datalogi Syddansk Universitet Odense Universitet Lørdag, den 18. Januar 2003 Alle sædvanlige
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereSyntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik
Datalogi C, RUC Forelæsning 22. november 2004 Henning Christiansen Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik Dagens program Hvad
Læs mereKapitel 9: Netværksmodeller
Kapitel 9: Netværksmodeller Terminologi: Et netværk eller en JUDI bestar af et sæt punkter samt et sæt linier, der forbinder par af punkter; netværket betegnes som komplet, hvis ethvert par af punkter
Læs mereOversættere, ugeopgave 3
Oversættere, ugeopgave 3 Anders jerg Pedersen (andersbp@me.com) 29. november 2009 Opgave 1 Vi konsrer først NFA er for grammatikken fra opgave 3.22 med produktionen tilføjet: Produktion NFA 0 A 1 C D 2
Læs mereKønsproportion og familiemønstre.
Københavns Universitet Afdeling for Anvendt Matematik og Statistik Projektopgave forår 2005 Kønsproportion og familiemønstre. Matematik 2SS Inge Henningsen februar 2005 Indledning I denne opgave undersøges,
Læs mereRegularitet og Automater. Tobias Brixen Q4-2012
Regularitet og Automater Tobias Brixen Q4-2012 1 Noterne er skrevet med inspiration fra http://cs.au.dk/ illio/courses/dregaut/dregautnoter.pdf Contents 1 Regulære udtryk 3 1.1 RegEx.................................
Læs mereNoter til DM517 Beregnelighed
Noter til DM517 Beregnelighed Jonas Nyrup 23. oktober 2011 Indhold 1 Et par noter 2 2 Regulære sprog 2 2.1 DFA................................. 2 2.1.1 Eksempler.......................... 3 2.2 NFA.................................
Læs mereConText Adaptation Vejledning til TGK-ordbogen
ConText Adaptation Vejledning til TGK-ordbogen Version 1.0 Oktober 2015 Sygehus Lillebælt IT-Afdelingen, Sygehus Lillebælt 1 ConText Adaptations funktion Talegenkendelse er baseret på en multimed ordbog,
Læs mereStatistik II 1. Lektion. Analyse af kontingenstabeller
Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression
Læs mereRegulære udtryk og endelige automater
Regulære udtryk og endelige automater Regulære udtryk: deklarative dvs. ofte velegnede til at specificere regulære sprog Endelige automater: operationelle dvs. bedre egnet til at afgøre om en given streng
Læs mereFormålet er, at brugeren får forståelse for, hvordan TGK-systemet fungerer, og hvordan man får det bedste resultat ud af at arbejde med det.
Introduktionsprogram til undervisning af nyansatte COSMIC TGK-brugere Introduktionsundervisningen foregår i 2 dele: Del 1 er baggrundsinformation om, hvordan TGK fungerer. Formålet er, at brugeren får
Læs mereDat 2/BAIT6/SW4: Syntaks og semantik En manual for studerende
Dat 2/BAIT6/SW4: Syntaks og semantik En manual for studerende Hans Hüttel Foråret 2011 Indhold Indhold 1 1 Kurset er lavet om! 1 2 Kursets indhold 2 2.1 Kursets emner................................ 2
Læs mereDansk talegenkendelse
Dansk talegenkendelse - status og udfordringer Børge Lindberg Center for PersonKommunikation Aalborg Universitet, Fredrik Bajers Vej 7A-6 DK-9220 Aalborg Ø E-mail: lindberg@cpk.auc.dk, Tlf. 96358638 Hvad
Læs mereKøbenhavnske ejerlejlighedspriser en meget begrænset indikator for hele landets boligmarked
N O T A T Københavnske ejerlejlighedspriser en meget begrænset indikator for hele landets boligmarked Baggrund og resume Efter i årevis at have rapporteret om et fastfrosset boligmarked, har de danske
Læs mereUndervisningsplan for Master i Sprogtilegnelse forår 2010
1. Semester forår 2010 Undervisningsplan for Master i Sprogtilegnelse forår 2010 Dato KL Modul Indhold Litteratur Introduktion 05.02.10 /Laila Kjærbæk U68 06.02.10 U69 05.03.10 U68 01 e-læring /Malene
Læs mereliterære værker på engelsk. At dømme på disse literære værker beherskede Joseph Conrad engelsk morfosyntaks og leksikon på et niveau der er
Dansk Resumé I denne afhandling undersøges fremmedsprogsperformans inden for tre lingvistiske domæner med henblik på at udforske hvorvidt der er domænerelateret modularitet i fremmedsprogsperformans, dvs.
Læs mereMedfødt grammatik. Chomskys teori om sprogtilegnelse efterlader to store stridspunkter i forståelsen af børnesprog:
Medfødt grammatik I slutningen af 1950 erne argumenterede lingvisten Noam Chomsky for, at sprogets generativitet måtte indeholde nogle komplekse strukturer. Chomskys argumentation bestod primært af spørgsmålet
Læs mereKapitel 9: Netværksmodeller
Kapitel 9: Netværksmodeller Terminologi: Et netværk eller en graf bestar af et sæt punkter samt et sæt linier, der forbinder par af punkter; netværket betegnes som komplet, hvis ethvert par af punkter
Læs mereForedrag ved Nordiske Datalingvistdage på laml, Københavns Universitet, oktober 1979.
145 Foredrag ved Nordiske Datalingvistdage på laml, Københavns Universitet, 9.-10. oktober 1979. Henrik llolinboe: Lemmatisering - hvilke iif de ideelle krav til leimnatisering er opfyldelige eller oj^fyldte?
Læs mereEn statistikstuderendes bekendelser Søren Wengel Mogensen
Oplysning 23 En statistikstuderendes bekendelser Søren Wengel Mogensen Om at skrive BSc-opgave i anvendt statistik. Der findes matematikere (i hvert fald matematikstuderende), der mener, at den rene matematik
Læs mereMatematisk modellering og numeriske metoder. Lektion 16
Matematisk modellering og numeriske metoder Lektion 16 Morten Grud Rasmussen 6. november, 2013 1 Interpolation [Bogens afsnit 19.3 side 805] 1.1 Interpolationspolynomier Enhver kontinuert funktion f på
Læs mereDanmarks Tekniske Universitet
side af sider Danmarks Tekniske Universitet Skriftlig prøve, den 6. maj 0. Kursusnavn: Algoritmer og datastrukturer I Kursus nr. 005. Tilladte hjælpemidler: Skriftlige hjælpemidler. Varighed: timer Vægtning
Læs mereIntro til design og brug af korpora
Intro til design og brug af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog- og Litteraturselskab www.dsl.dk Intro til design og brug korpuslingvistik af korpora Jørg Asmussen ja@dsl.dk Det Danske Sprog-
Læs mereRegularitet og Automater
Plan dregaut 2007 Regularitet og Automater Hvad er Regularitet og Automater? Praktiske oplysninger om kurset Ugens emner Introduktion til ugens opgaver 2 Regularitet og Automater Formål med kurset: at
Læs mereSimulering af stokastiske fænomener med Excel
Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen
Læs mereIt-støttet excerpering og registrering af nye ord og ordforbindelser
It-støttet excerpering og registrering af nye ord og ordforbindelser Møde i Selskab for Nordisk Filologi 30. oktober 2008 Jakob Halskov Projektforsker, ph.d. Dansk Sprognævn jhalskov@dsn.dk Disposition
Læs mereSkriftlig Eksamen Algoritmer og sandsynlighed (DM538)
Skriftlig Eksamen Algoritmer og sandsynlighed (DM538) Institut for Matematik & Datalogi Syddansk Universitet Fredag den 9 Januar 2015, kl. 10 14 Alle sædvanlige hjælpemidler(lærebøger, notater etc.) samt
Læs mereMeddelelse 2. Forelæsningerne i uge 6 ( ) Gennemgangen af BPT fortsættes. Vi afslutter Kapitel 4 og når sikkert et godt stykke ind i Kapitel 5.
Institut for Matematiske Fag arhus Universitet STTISTIK(2003-ordning) Jens Ledet Jensen Jørgen Granfeldt 2. februar 2006 Meddelelse 2 Forelæsningerne i uge 5 (30.1 5.2) Ved forelæsningen mandag den 30.
Læs mereLEKTION 4 MODSPILSREGLER
LEKTION 4 MODSPILSREGLER Udover at have visse fastsatte regler med hensyn til udspil, må man også se på andre forhold, når man skal præstere et fornuftigt modspil. Netop modspillet bliver af de fleste
Læs mereEn martingalversion af CLT
Kapitel 9 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske variable,
Læs mereÅRSAG OG VIRKNING I ØKONOMIEN
ÅRSAG OG VIRKNING I ØKONOMIEN OM NOBELPRISMODTAGERNE I ØKONOMI 2011 Thomas J. Sargent og Christopher A. Sims Præsentation på Statens Naturhistoriske Museum Nobelkavalkade 2012 d. 25/1 2012 ved Professor
Læs mereRegulære udtryk og endelige automater. Ugens emner
Ugens emner Endelige automater [Martin, kap. 3.2-3.5] endelige automater og deres sprog skelnelighed produktkonstruktionen Java: dregaut.fa klassen automater til modellering og verifikation Regulære udtryk
Læs mereAarhus Universitet 5. februar Meddelelse 2
fdeling for Teoretisk Statistik IOSTTISTIK Institut for Matematiske Fag Preben læsild arhus Universitet 5. februar 2003 Meddelelse 2 Forelæsningerne i uge 6 (3-7.2) Ved forelæsningen den 4.2 gav Frank
Læs mereAI is not ROBOTS
AI is not ROBOTS Dataetik og AI Regeringens Ekspertgruppe om dataetik lancerede 22. november 2018 deres anbefalinger. Den praktiske anvendelse af AI spillede en fremtrædende rolle i mange af diskussionerne,
Læs mereUniversity of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version
university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,
Læs mereIntroduktion til prædikatlogik
Introduktion til prædikatlogik Torben Braüner Datalogisk Afdeling Roskilde Universitetscenter 1 Plan Symbolisering af sætninger Syntaks Semantik 2 Udsagnslogik Sætningen er den mindste syntaktiske enhed
Læs mereEN KOGNITIV REVOLUTION I VIDENSKABEN?
EN KOGNITIV REVOLUTION I VIDENSKABEN? Niels Ole Bernsen, Center for Kognitiv Informatik (CCI), Roskilde Universitet og Forskningscenter Risø Jeg vil forsøge kort at svare på spørgsmålet, om kognitionsforskning
Læs mereÅben uddannelse, Efterår 1996, Oversættere og køretidsomgivelser
3/10/96 Seminaret den 26/10 vil omhandle den sidste fase af analysen og de første skridt i kodegenereringen. Det drejer sig om at finde betydningen af programmet, nu hvor leksikalsk og syntaktisk analyse
Læs mereMaple 11 - Chi-i-anden test
Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.
Læs mereFlere ligninger med flere ukendte
Flere ligninger med flere ukendte Frank Villa 14. februar 2012 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.
Læs mereSkriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)
Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528) Institut for Matematik & Datalogi Syddansk Universitet Mandag den 3 Januar 2011, kl. 9 13 Alle sædvanlige hjælpemidler
Læs mereEn differentiabel funktion hvis afledte ikke er kontinuert Søren Knudby
24 En differentiabel funktion hvis afledte ikke er kontinuert Søren Knudby Det er velkendt for de fleste, at differentiabilitet af en reel funktion f medfører kontinuitet af f, mens det modsatte ikke gælder
Læs mereSkriftlig Eksamen Algoritmer og Datastrukturer (dads)
Skriftlig Eksamen Algoritmer og Datastrukturer (dads) Datalogisk Institut Aarhus Universitet Mandag den 27. maj 2002, kl. 9.00 13.00 Opgave 1 (25%) Denne opgave handler om multiplikation af positive heltal.
Læs mereNormale tal. Outline. Hvad er tilfældighed? Uafhængighed. Matematiklærerdag Simon Kristensen. Aarhus Universitet, 24/03/2017
Matematiklærerdag 2017 Institut for Matematik Aarhus Universitet Aarhus Universitet, 24/03/2017 Outline 1 2 3 Hvad er tilfældighed? I statistik, sandsynlighedsteori og ikke mindst i programmering er det
Læs mereRevision af pengeinstitutter
Revision af pengeinstitutter Hvor meget information kan en revisor overskue? Ledende økonom Nikolaj Warming Larsen 03/04/2014 1 Hovedkonklusioner Det overordnede mål med ekstern revision af finansielle
Læs mere4 Oversigt over kapitel 4
IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt
Læs merefundament for AGL Charlotte Bruun 28. marts, 2007 Lektor Institut for Økonomi, Politik og Forvaltning Aalborg Universitet
Lektor Institut for Økonomi, Politik og Forvaltning Aalborg Universitet empiriske AGL 28. marts, 2007 empiriske empiriske Makroøkonometriske AGL kalibrering dynamiske AGL Den offentlige sektor AGL empiriske
Læs mereWebsitet handler om websitet i sin helhed, dvs. hvor mange besøgende du har i alt osv.
Statistikmodulet. Statistikmodulet er et grundlæggende værktøj til at forstå og analysere trafikken på dit website, og det kan du benytte til mange ting, lige fra at se hvor mange besøgende du har, til
Læs mereSemantiske relationer og begrebssystemer
Semantiske relationer og begrebssystemer I denne opgave vil jeg beskæftige mig med semantiske relationer og begrebssystemer med udgangspunkt i en oplysende tekst fra Politikens Vinbog (se bilag). Jeg vil
Læs mereMuligheder og begrænsninger i Deep Learning. C h r i s H o l m b e r g B a h n s e n
Muligheder og begrænsninger i Deep Learning C h r i s H o l m b e r g B a h n s e n Muligheder og begrænsninger i Deep Learning Muligheder: Netværk, der kan lære af sig selv Reinforcement learning Generative
Læs mereUfuldstændighed, mængdelære og beregnelighed
Ufuldstændighed, mængdelære og beregnelighed Thomas Bolander, DTU Informatik Matematik: Videnskaben om det uendelige Folkeuniversitetet i København, efteråret 2009 Thomas Bolander, FUKBH 09 s. 1/27 Sidste
Læs mere1. Seminar EVU RegAut
1. Seminar EVU RegAut Sigurd Meldgaard Datalogisk Institut Århus Universitet stm@cs.au.dk 27/08 2010 S. Meldgaard (AU) 1. Seminar EVU RegAut 27/08 2010 1 / 105 Plan Introduktion Hvad er Regularitet og
Læs mere- erkendelsens begrænsning og en forenet kvanteteori for erkendelsen
Erkendelsesteori - erkendelsens begrænsning og en forenet kvanteteori for erkendelsen Carsten Ploug Olsen Indledning Gennem tiden har forskellige tænkere formuleret teorier om erkendelsen; Hvad er dens
Læs mereAalborg Universitet, 2. juni 2004. Lasse Høgh. Rasmus Flyger Berg Andersen. Side 1 af 13
Denne rapport er et produkt af et INF6 projekt, i faget Verbal interaktion i multimodal kontekst. Rapporten dokumenterer udviklingen af et vejrudsigtssystem. Koden til systemet er at finde på den vedlagte
Læs merePlan. Markovkæder Matematisk modelling af kølængde, yatzy, smittespredning og partikelbevægelser. Materiale mm.
Institut for Matematiske Fag Plan Markovkæder Matematisk modelling af kølængde, yatzy, smittespredning og partikelbevægelser Helle Sørensen Eftermiddagen vil være bygget om 3 4 eksempler: A. B. Random
Læs mereSkriftlig Eksamen Algoritmer og Datastrukturer (DM507)
Skriftlig Eksamen Algoritmer og Datastrukturer (DM507) Institut for Matematik og Datalogi Syddansk Universitet, Odense Mandag den 7. juni 00, kl. 9 Alle sædvanlige hjælpemidler (lærebøger, notater, osv.)
Læs mere26 Programbeviser I. Noter. PS1 -- Programbeviser I. Bevis kontra 'check af assertions' i Eiffel. Betingelser og bevisregler.
26 Programbeviser I. Bevis kontra 'check af assertions' i Eiffel. Betingelser og bevisregler. Hvad er programverifikation? Bevisregel for 'tom kommando'. Bevisregel for assignment. Bevisregler for selektive
Læs mereFraktaler Mandelbrots Mængde
Fraktaler Mandelbrots Mængde Foredragsnoter Af Jonas Lindstrøm Jensen Institut For Matematiske Fag Århus Universitet Indhold Indhold 1 1 Indledning 3 2 Komplekse tal 5 2.1 Definition.......................................
Læs mereOm at løse problemer En opgave-workshop Beregnelighed og kompleksitet
Om at løse problemer En opgave-workshop Beregnelighed og kompleksitet Hans Hüttel 27. oktober 2004 Mathematics, you see, is not a spectator sport. To understand mathematics means to be able to do mathematics.
Læs mereSimulering af stokastiske fænomener med Excel
Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen
Læs mereDATALOGISK INSTITUT, AARHUS UNIVERSITET
DTLOS NSTTUT, RUS UNVERSTET Det Naturvidenskabelige akultet ESMEN rundkurser i Datalogi ntal sider i opgavesættet (incl. forsiden): 7 (syv) Eksamensdag: Torsdag den 14. juni 007, kl. 9.00-1.00 Eksamenslokale:
Læs mereNoget om en symmetrisk random walks tilbagevenden til udgangspunktet
Random Walk-kursus 2014 Jørgen Larsen 14. oktober 2014 Noget om en symmetrisk random walks tilbagevenden til udgangspunktet Dette notat giver et bevis for at en symmetrisk random walk på Z eller Z 2 og
Læs mere1 Palm teori. Palm teori 1
Palm teori 1 1 Palm teori Lad X = {X(t)} t 0 være en stokastisk proces defineret på et måleligt rum (Ω, F), og lad T = {T n } n N0 være en voksende følge af ikke-negative stokastiske variable herpå. Vi
Læs mereBits DM534. Rolf Fagerberg, 2012
Bits DM534 Rolf Fagerberg, 2012 Resume af sidst Overblik over kursus Introduktion. Tre pointer: Datalogi er menneskeskabt og dynamisk. Tidslinie over fremskridt mht. ideer og hardware. Algoritme er et
Læs mereItalien spørgeskema til seminarielærere / sprog - dataanalyse
Italien spørgeskema til seminarielærere / sprog - dataanalyse Om dig 1. 7 seminarielærere, der under viser i sprog, har besvaret spørgeskemaet 2. 6 undervisere taler engelsk, 6 fransk, 3 spansk, 2 tysk
Læs mereKursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Læs mereForberedelse. Forberedelse. Forberedelse
Formidlingsopgave AT er i høj grad en formidlingsopgave. I mange tilfælde vil du vide mere om emnet end din lærer og din censor. Det betyder at du skal formidle den viden som du er kommet i besiddelse
Læs mereSkriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)
Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM58) Institut for Matematik & Datalogi Syddansk Universitet Torsdag den 7 Januar 010, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger,
Læs mereSprogets byggeklodser og hjernens aktivitet ved sproglige processer Regionshospitalet Hammel Neurocenter
Sprogets byggeklodser og hjernens aktivitet ved sproglige processer Lisbeth Frølund, cand. mag. i audiologopædi Formål med sprog Udtrykke behov Give/modtage information Udveksle holdninger, følelser m.m.
Læs mereFordele og ulemper ved latent klasseanalyse
Fordele og ulemper ved Institut for Erhvervsstudier, Aalborg Universitet Disposition Hvad er (klassisk)? Eksempel på anvendelse Senere udviklinger Eksemplet fortsat Fordele og ulemper ved latent klasseanalyse
Læs mereProblem 1: Trykbevidsthed
Page 1 of 5 04/20/09 - Sammen satte ord - fra et fonetisk perspektiv Retskrivningsordbogen har en enkelt regel hvor skrivemåden gøres afhængig af udtalen. Det drejer om 18? om hvorvidt en ordforbindelse
Læs mereDigitale Videnssystemer: Notater
Digitale Videnssystemer: Notater Sigfred Hyveled Nielsen IVA / Københavns Universitet 3. Semester Denne tekst er skrevet af Sigfred Nielsen, og stillet til rådighed under Creative Commons Navngivelse-IkkeKommerciel-DelPåSammeVilkår
Læs mere