Stemmestyring af et musikanlæg

Transkript

1 Stemmestyring af et musikanlæg Theis Hansen Datalogisk institut Københavns Universitet Vejleder: Peter Johansen Skriftligt andendelsprojekt som del af en kandidatgrad i datalogi 2006

2 Resumé Nutidens talegenkendere klarer sig godt, med undtagelse af når de er udsat for støj. Vil man bruge talegenkendelse til stemmestyring af et stereoanlæg, er man i den særlige situation at støjen (musikken) er kendt. Jeg har implementeret fire metoder til dæmpning af kendt støj: naiv subtraktion, spektral subtraktion, NLMS algoritmen og mit eget personlige bidrag som er en hybrid mellem spektral subtraktion og NLMS. Metoderne er evalueret ud fra præcision og køretid i et praktisk eksperiment. Resultaterne viser at hybrid metoden og spektral subtraktion klarer sig bedst, mens NLMS er den hurtigste fungerende metode. Naiv subtraktion viser sig helt ubrugeligt i praksis.

3 Indhold 1 Introduktion Introduktion til problemet Afgrænsning af problemet Målgruppe Talegenkenderen Opstillingen Notation Problemet opstillet matematisk Den naive metode Introduktion Tidsforskydelse Kompensation for tidsforskydelse Amplitudeforskel Korrektion af amplitudeforskel Mikrofonen og højtalernes karakteristika Korrektion af mikrofonen og højtalernes karakteristika Fasevariationer Korrektion af fasevariationer Konklusion Spektral subtraktion Introduktion Spektral subtraktion Vinduesfunktioner i

4 3.2.2 Estimering af støjniveauet α Musical noise Korrektion af musical noise Opsummering/Konklusion NLMS Introduktion Opbygningen af en ekkofjerner LMS algoritmen Problemer ved brug af LMS algoritmen NLMS algoritmen Opsummering/Konklusion Hybrid metode Beskrivelse Forsøget Formål med forsøget Implementering af test Udarbejdelse af testfilerne Implementering af metoder Metodernes parametre Evaluering af resultater Resultater bad bad bad mozart egentale Diskussion af resultaterne Den naive metode Spektral subtraktion LMS Hybrid metoden ii

5 6.4.5 Mulige forbedringer Konklusion og perspektiver 24 A Testresultater 25 A.1 Resultater for bad A.2 Resultater for bad A.3 Resultater for bad A.4 Resultater for mozart A.5 Resultater for egentale B Samlede testresultater for faste parametre 40 iii

6 Kapitel 1 Introduktion 1.1 Introduktion til problemet Talegenkendelsesprogrammer virker efterhånden imponerende godt - forudsat de får lov til at arbejde i et støjfrit miljø. Det hjælper f.eks. systemerne meget, hvis man benytter et headset. Det er dog ikke altid praktisk at skulle benytte et headset. Da det bliver mere og mere udbredt at gemme sin musiksamling på computeren, har jeg tidligere lavet et program, der ved hjælp af Microsoft Speech API gør det muligt at benytte computeren som et stemmestyret stereoanlæg. Desværre betyder støjen fra musikken, at man ikke kan stoppe musikken igen. Derfor er det mit formål med dette projekt at undersøge hvilke muligheder, der er for at reducere støjen, og evaluere de muligheder jeg finder. Mulighederne vil blive evalueret ud fra hvor meget, de hjælper talegenkenderen og hvor vidt, det er muligt at køre algoritmerne i realtid, hvilket naturligvis er et krav for, at systemet kan bruges i praksis. Jeg vil forsøge at benytte mig af, at computeren ved hvad, der bliver sendt til højttalerne. Støjfiltreringen skal køre som et selvstændigt program, der dæmper støjen, før signalet bliver sendt videre til talegenkenderen Afgrænsning af problemet For at projektet ikke skal blive for omfattende har jeg lavet følgende afgrænsninger af problemet: Jeg vil kun beskæftige mig med støjreduktionsalgoritmernes effekt på Microsoft Whisper (talegenkenderen som man kan programmere med Microsofts Speech API 5.1). Med realtid mener jeg: Kan køre på en almindelig hjemmecomputer (Intel Celeron 2.0 GHz eller højere) samtidig med talegenkendelsesapplikationen. Jeg vil hovedsageligt beskæftige mig med løsninger, der benytter sig af viden om støjen der skal frafiltreres ("semi-blind source separation"). Min opstilling vil være en computer med tilsluttede højttalere og en tilsluttet mikrofon. Jeg vil ikke beskæftige mig med muligheder, der kræver yderligere hardware (f.eks. brug af to mikrofoner). Jeg har ikke adgang til Microsoft Whisper s kildekode - derfor vil afprøvning af algoritmerne blive af empirisk karakter. 1

7 2 1.2 Talegenkenderen Målgruppe Min tiltænkte målgruppe for denne rapport er datalogistuderende som mig, der har gennemført bachelorerdelen og har haft et billedbehandlingskursus og derfor har kendskab til den diskrete fouriertransformation - men ikke nødvendigvis har haft et signalbehandlings kursus. 1.2 Talegenkenderen Til forsøgene vil jeg benytte Microsoft Whisper. Jeg har valgt Microsoft Whisper, fordi den er meget udbredt og kan indstilles til enten at genkende kontinuert tale (diktering) eller korte kommandoer (hvilket er det, man skal bruge til at styre et stereoanlæg med). Selv om de fleste nok ikke har hørt om Microsoft Whisper, er det faktisk et utroligt udbredt program. Det bruges blandt andet i: Microsoft Encarta, Windows 2000, Office XP og Windows XP [research.microsoft.com, 2006]. Oprindeligt bygger Whisper på talegenkendelsessystemet SPHINX, som var et af de første talegenkendelsessystemer, der forsøgte at løse tre store opgaver på samme tid nemlig: Taleruafhængighed, forståelse af kontinuert tale, og stort ordforråd [Lee et al., 1990]. Systemet blev senere forbedret i SPHINX-II. Microsoft tog fat i SPHINX-II og lavede deres egne ændringer i systemet, så det kunne køre på de fleste computere. De kaldte dette system Whisper (Windows Highly Intelligent Speech Recognizer). 1.3 Opstillingen Denne opgave beskæftiger sig med følgende opstilling. En computer har tilsluttet en billig mikrofon (i dette tilfælde indbygget i et webcam). Computeren har ligeledes tilsluttet højtalere. Når computeren spiller musik x m med højtalerne bliver musikken delvist opfanget af mikrofonen og blandet med brugerens tale y t til et blandet signal x b. Se figur 1.1. Figur 1.1: Opstillingen denne rapport vil beskæftige sig med. x m er musikken, y t er talen og x b er blandingen af musikken og talen, efter den er optaget af mikrofonen. På computeren kører et program, der gør brug af Microsoft Whisper, og det program, der bruger algoritmerne fra denne rapport (Støjfjerner). Støjfjerner modtager lyden x b fra mikrofonporten og den lyd som lydkortet afspiller ( monomix porten ). Derpå forsøger Støjfjerner at filtrere musikken fra talen og sender resultatet (talen) videre til Microsoft Whisper.

8 3 1.4 Notation 1.4 Notation Jeg vælger i denne opgave at benytte mig en notation inspireret af bogen Signal Processing First [McClellan et al., 2003]. Følgende navne vil jeg benytte gennem hele rapporten (se figur: 1.1): x m [n] er den n te sample fra musikken x b [n] er den n te sample fra det blandede signal y t [n] er den n te sample af talen - jeg har valgt at kalde den y t i stedet for x t, da det netop er talen, det er vores mål at finde. Den er resultatet. Skrives et af navnene med stort bogstav f.eks. X m betyder dette den fouriertransformerede af x m 1.5 Problemet opstillet matematisk En mere matematisk måde at opstille problemet på er som i ligning (1.1) [Katagiri, 2000] x b [n] = h(y t [n],s[n]) (1.1) hvor vi har et blandet signal x b, talen y t, støj s og en signalvej/kommunikationskanal h( ). Som forenklende antagelse vil jeg kun behandle h som et lineært tidsuafhængigt system (ENG: Linear Time-Invariant)(herefter: LTI) - hvilket man ofte kan [Katagiri, 2000]. For et LTI system gælder det, at hvis vi forsinker input til systemet med n 0, så vil output også være forsinket med n 0. Desuden gælder det, at hvis to sekvenser x 1 og x 2 skaleres med henholdsvis α og β, summeres og sendes ind i systemet, skal systemets output være lig systemets output efter x 1 og x 2 sendes gennem systemet hver for sig og derpå skaleres (med henholdsvis α og β) og summeres [McClellan et al., 2003]. Hvis man samtidig antager, at støjen er additiv, får man ligningen (1.2) [Katagiri, 2000] x b [n] = (h[n] y t [n]) + s[n] (1.2) Formel (1.2) folder signalvejens impulsrespons med talen og adderer støj. Vinklen på problemet i dette projekt er, at vi ignorerer den eventuelle effekt af anden støj end musikken. Det interessante er at se, hvor meget af musikken der kan fjernes. Derfor vil der i de følgende kapitlers formler ikke været taget hensyn til anden støj end x m, og formlen kan omskrives til (1.3) x b [n] = (h t [n] y t [n]) + (h m [n] x m [n]) (1.3) hvor h t er talens signalvejs impulsrespons, og hvor vi i stedet for støj har skrevet musikken x m foldet med musikkens signalvejs impulsrespons h m.

9 Kapitel 2 Den naive metode 2.1 Introduktion Den mest naive løsning til støjdæmpning er, at man subtraherer det uønskede signal fra det blandede signal, hvilket skulle resultere i det ønskede signal som vist i (2.1) y t [n] x b [n] x m [n] (2.1) Talen skal altså findes ved at subtrahere musikken fra det blandede signal. Denne løsning er den første, man kommer på, når man tænker over problemet. Den er dog for simpel til at virke i praksis. Alligevel har jeg valgt at medtage den, da den giver mig mulighed for at forstå problemets dybde. Derfor vil jeg i dette kapitel diskutere følgende faktorer i opstillingen, der formentligt ødelægger denne ellers så elegante løsning: Tidsforskydelse Amplitudeforskel Mikrofonen og højtalernes karakteristika Fasevariationer 2.2 Tidsforskydelse Når computeren optager fra de to lydindgange ( mono-mix og mikrofon ), er det ikke sikkert, de startes præcis samtidigt. Desuden vil musikken, der skal rejse gennem højtalerne, reflekteres fra rummet og ende tilbage i mikrofonen, have en længere vej end den musik (x m ), der læses fra mono-mix porten. Derfor er en tidsforskydelse mellem de to signaler uundgåelig. Tidsforskydelsen kan være et problem. Som illustreret i figur 2.1 vil det uønskede signal x m (vist med rødt) ikke blive dæmpet ordentligt, hvis der er blot en lille tidsforskydelse (illustreret af de blå linjer) Kompensation for tidsforskydelse For at løse dette problem vil jeg forsøge at estimere tidsforskydelsen ved at udregne krydskorrelationen mellem den ene optagelse og den anden. Krydskorrelationen siger noget om, hvor meget et signal ligner et andet ved en bestemt tidsforskydelse d. Hvis man prøver alle tidsforskydelser fra til 22050, fås en række tal, der 4

10 5 2.2 Tidsforskydelse Amplitude Tid sin(x) sin(x)-(sin(x+0.1)) sin(x)-(sin(x-0.1)) Figur 2.1: Tidsforskydelse af det subtraherede signal kan give problemer. Hvis man subtraherer det røde signal med sig selv blot tidsforskudt 0.1 eller -0.1 langs tidsaksen, får man de blå restsignaler. repræsenterer hvor godt den ene lyd passer med den anden hvis lyden tidsforskydes fra -1 sekund og op til +1 sekund (ved en sampling frekvens på Hz). Hver tal i denne række kan udregnes som vist i formel (2.2) [Clark-Carter, 1997] ( ) b i=a (x b [i] x b ) (x m [i d] x m ) r[d] = ( ) 2 ( ) (2.2) b 2 b i=a x b [i] x b i=a x m [i d] x m hvor r[d] er korrelationskoefficienten ved tidsforskydelsen d, og x b er gennemsnittet af x b. [a,b] er intervallet inden for hvilket, korrelationen udregnes. Ligningen er lettere at forstå forklaret med ord. Den tager kovariansen mellem de to variable ved en tidsforskydelse på d og dividerer med produktet af x b og x m s standardafvigelser. Den d, hvor korrelationskoefficienten r[d] er højest, angiver tidsforskydelsen mellem x b og x m. Jeg vil kalde den bedste værdi af d for d b. Dette er dog ikke en ufejlbarlig metode. Hvis musikken gentages periodisk, vil der for hver periode være en høj korrelationskoefficient. Tidsforskydningen vil også kunne ændre sig, hvis mikrofonen, højtalerne eller genstande i rummet flyttes. Derfor vil jeg genfinde tidsforskydningen i faste intervaller f.eks. hver tredje sekund. Det vil også have den positive effekt, at tidligere fejl (på grund af midlertidig periodicitet i musikken eller stærkt interfererende tale) kan blive korrigeret. Med en korrekt udregnet tidsforskydelse kan resultatet muligvis forbedres af (2.1) ved at benytte formel (2.3) og indsætte den bedste tidsforskydelse d b. y t [n] x b [n] x m [n d b ] (2.3)

11 6 2.3 Amplitudeforskel 2.3 Amplitudeforskel Hvis amplituden af x m er for høj eller for lav i forhold til musikkens bidrag i x b, vil musikken ikke blive fjernet ordentligt. Dette er illustreret på figur 2.2. x b er den røde linje. Den mørkeblå linje er resultatet, hvis x m s amplitude er for høj, og den lyseblå hvis x m s amplitude er for lav. Amplitude Tid sin(x) sin(x)-(sin(x)*0.8) sin(x)-(sin(x)*1.5) Figur 2.2: Eksempel til at vise at amplituden af det subtraherede signal hverken skal være for høj (den lyseblå linje) eller lav (den mørkeblå linje) Korrektion af amplitudeforskel Dette problem er vanskeligt at kompensere for. Problemet ligger i, at det ikke kun er x m, der kommer ind af mikrofonen men x m + y t og eventuelt noget ekstra støj. Derfor kan man ikke blot skalere x m s amplitude efter x b s amplitude. Jeg vil kompensere for problemet ved at benytte mig af, at brugeren kun giver kommandoer til systemet en gang imellem og ikke snakker kontinuerligt. Da det vides, at kommandoer til systemet vil være korte, kan vi udregne et løbende gennemsnit af den skalar s, med hvilken x m s amplitude skulle multipliceres for at have samme amplitude som x b. Hvis et tilstrækkeligt langt vindue benyttes i udregningen af det løbende gennemsnit, vil den negative effekt af kort tale kunne dæmpes, da vi gennem vinduets længde styrer trægheden af skalarens tilpasning. Løbende gennemsnit kan implementeres som formel 2.4 s b [n] = 1 L 1 s[n k] (2.4) L k=0 hvor s b [n] er den bedste skalar til at multiplicere med x m ved den n te sample. L 1 er antallet af gamle samples, der skal bruges til udregningen af gennemsnittet. Fordelen og ulempen ved denne metode er den samme. Amplituden justeres kun langsomt, så den er resistent over for støj - men også træg over for reelle ændringer (hvis f.eks. brugeren ændrer musikkens volume).

12 7 2.4 Mikrofonen og højtalernes karakteristika 2.4 Mikrofonen og højtalernes karakteristika Når musikken afspilles optager Støjfjerner fra lydkortets mono-mix port, men signalet fra denne port er ikke det samme, som det der kommer ind af mikrofonen (selv hvis brugeren tier stille). Det skyldes, at højtalerne ikke vil formidle signalet perfekt, og mikrofonen ikke vil modtage signalet perfekt. Ligeledes vil signalet, der afspilles af højtaleren, blive foldet med lokalets impulsrespons, inden det når mikrofonen [Anemüller and Kollmeier, 2003] Korrektion af mikrofonen og højtalernes karakteristika For at løse problemet med mikrofonen og højtalernes karakteristika kunne man forsøge at modellere mikrofonen og højtalernes karakteristika som filtre (se kapitel 4). 2.5 Fasevariationer Fra musikken forlader højtalerne, til den når mikrofonen, vil dens fase sandsynligvis ikke være bevaret. Dette skyldes, at lydens forskellige frekvenser ikke propagerer ens, og derfor vil lyden, der når mikrofonen, muligvis have rejst af forskellige veje [Smith, 1999]. Konsekvensen af dette er illustreret i figur 2.3. Figur 2.3: Til venstre en 1kHz sinusbølge med en 3 khz sinusbølge adderet. Til højre samme 1kHz sinusbølge med den inverterede 3 khz sinusbølge adderet. Figur fra [Anemüller and Kollmeier, 2003] Korrektion af fasevariationer Det er ikke åbentlyst, hvordan man skal kompensere for fasevariationer i tidsdomænet, derfor kan man benytte sig af Fourier transformationen for at kunne adskille fase fra magnitude i et signal (se kapitel 3). 2.6 Konklusion Jeg har i dette kapitel præsenteret de største problemer ved den naive fremgangsmåde og mulige løsninger på to af problemerne nemlig brug af krydskorrelation mellem x m og x b for at finde tidsforskydningen mellem dem og brug af løbende gennemsnit til at justere amplitudeforskellene mellem x m og x b. Der er dog stadig væsentlige

13 8 2.6 Konklusion mangler ved denne metode som højdetagen for mikrofonens og højtalernes karakteristika samt lydens vej gennem rummet. Disse problemer vil jeg forsøge at adressere i de kommende kapitler.

14 Kapitel 3 Spektral subtraktion 3.1 Introduktion Da metoden i kapitel 2 har problemer med tidsforskydelser, virker det som en god ide at fouriertransformere signalerne og arbejde på dem i frekvensdomænet i stedet for tidsdomænet. Dermed burde effekten af musikkens tidsforskydning kunne reduceres uden at benytte den relativt tunge metode beskrevet i afsnit Således burde man kunne få gode resultater med en metode til at dæmpe musikkens frekvenser i det blandede signal. Desuden kan man komme uden om faseproblemet (se kapitel 2.5), da fouriertransformationen muliggør arbejde på fase og magnitude separat. Jeg vil i dette kapitel beskrive spektral subtraktion, som er en metode til dæmpning af frekvenser, og diskutere problemerne ved denne metode. 3.2 Spektral subtraktion Spektral subtraktion er en metode til at fjerne additiv støj fra et signal i frekvensdomænet. Ideen er at man tager støjens powerspektrum og subtraherer det fra det ønskede signals powerspektrum. Formlen er vist i formel (3.1) Y t b X b b α X m b (3.1) Formlen siger at talens spektrum skulle være lig musikkens spektrum subtraheret fra det blandede signals spektrum. Eksponenten b sættes lig 1, hvis man vil bruge magnitudespektra og lig 2 for powerspektra. Skaleringsparametren α vil jeg beskrive og finde i afsnittet Spectral subtraction står beskrevet i [Vaseghi, 2000] som en metode til fjernelse af af ukendt støj - derfor indeholder ligningen det tidsligt gennemsnit af støjens spektrum ( X m b ). Det er så tænkt, at dette gennemsnit af spektrummet skal udregnes i perioder, hvor kun støjen er tilstede. I mit tilfælde er støjen dog hele tiden isoleret, men det betyder ikke, det er en dårlig ide at benytte sig af et gennemsnit, da den præcise tidsforskydelse mellem støjen (x m ) og det støjfyldte signal (x b ) ikke er kendt, med mindre der benyttes den noget tunge krydskorrelationsmetode beskrevet i afsnit Man kan derfor vælge at tage et gennemsnit over lidt ekstra tid og risikere at få dæmpet nogle af musikkens frekvenser, som ikke er blevet afspillet endnu (dvs. potentielt beskadige talen) eller undlade at udregne et gennemsnit og risikere ikke at få dæmpet musikken helt. Ud fra resultaterne af nogle forsøg har jeg dog valgt ikke at benytte mig af et gennemsnit, da det krævede mere arbejde for maskinen og ofte gav dårligere resultater. Når man har benyttet formel (3.1) til at udregne det resulterende magnitu- 9

15 Musical noise despektrum, skal der bruges noget faseinformtion for at den inverse fouriertransformation kan udføre, så man kan få et signal i tidsdomænet, der kan afspilles. Man kan her blot benytte fasen fra det støjfyldte signal X b [Vaseghi, 2000], da mennesker ikke er særligt følsomme over faseændringer [Smith, 1999] Vinduesfunktioner Når der arbejdes på frekvensspektrummet, er det naturligvis vigtigt, at frekvenserne er korrekte. Det er dog sådan, at hvis man fouriertransformerer lyd, vil der opstå artefakter som resultat af diskontinuiteterne mellem lydens start og dens slutning. Det skyldes, at fouriertransformationen virker ved at antage, at kilden gentager sig for evigt. For at dæmpe problemet indføres en vinduesfunktion. En sådan lader lyden tage til gradvist og aftage gradvist, så diskontinuiteterne mellem start og slut udjævnes. Der findes mange forskellige vinduesfunktioner - men [Vaseghi, 2000] anbefaler et hamming vindue w H som i følge [McClellan et al., 2003] har formlen vist i (3.2). { 0,54 0,45cos( 2π w H (t) = T t) 0 t T 0 ellers (3.2) Estimering af støjniveauet α I ligning (3.1) var der en skalar α, der skalerer magnituden på musikkens frekvensspektrum. Hvis α er for høj, vil man komme til at få et negativt resultat. Negativ magnitude giver ikke mening, og derfor må man begrænse resultatene ved nul. Således bør formel (3.1) omskrives til formel (3.3). Noise Level Estimation (LEET) Y t b max(0, X b b α X m b ) (3.3) En god metode til estimering af α for automatisk talegenkendelse er Low-Energy Envelope Tracking (LEET) [Lathoud et al., 2006]. Ideen i metoden er, at minima i powerspektret svarer til steder, hvor der kun er støj (dvs. ingen tale). Hvis denne antagelse er korrekt, vil man kunne bruge et gennemsnit af energien for spektrets svageste frekvenser som estimat for α [Ris and Dupont, 2001]. Hvor stor en andel af frekvenserne man skal anse for svage frekvenser γ siges af [Lathoud et al., 2006] at være konstant γ = 1 5. Denne metode giver generelt en underestimering af støjniveauet, og [Ris and Dupont, 2001] foreslår, man finder en skaleringsfaktor C gennem kalibrering. Kalibrering er dog altid besværligt, og [Lathoud et al., 2006] rapporterer om bedre talegenkendelsesresultater med C = γ 2 end ved en kalibrering. Derfor vil jeg benytte konstanten, [Lathoud et al., 2006] anbefaler. Metoden beskrevet i dette afsnit burde også kunne bruges som erstatning for den naive metode til estimering af støjniveauet i afsnit Efter at have prøvet metoden i praksis har jeg valgt at benytte et løbende gennemsnit (se afsnit 2.3.1) over metodens resultater, da værdierne viste sig at svinge en smule. 3.3 Musical noise Selv med den korrekte α vil man få et andet problem, da der ikke er taget højde for x m s signalvej fra før højtaleren til efter mikrofonen. Derfor vil X m sandsynligvis trække for meget fra nogle steder og for lidt andre. Det leder til et fænomen, der i

16 Musical noise litteraturen betegnes musical noise. Grunden, til at det kaldes musical noise, er, at der for hvert tidsvindue vil være nogle små smalle resttoppe, der lyder som toner, når de invers fouriertransformeres (fordi de er smalle og alenestående). Dette er illustreret med figur 3.1, 3.2 og 3.3 herunder (figurer genereret med programmet Praat [Boersma and Weenink, 2006]). Sound pressure level (db/hz) Frequency (Hz) Figur 3.1: 0,1 sekunds fouriertransformeret vindue af X b Sound pressure level (db/hz) Frequency (Hz) Figur 3.2: 0,1 sekunds fouriertransformeret vindue af X m Sound pressure level (db/hz) Frequency (Hz) Figur 3.3: Illustation af musical noise: 0,1 sekunds fouriertransformeret vindue af resultatet af ligning (3.3) med α = 0.5, x b som figur 3.1 og x m som 3.2, bemærk den ensomme top i midten Korrektion af musical noise Jeg har fundet to beskrivelser af metoder til reduktion af musical noise. Den første metode beskrives af [Vaseghi, 2000]. Han skriver at ved brug af en DFT blokstørrelse på 128 samples og en samplingrate på 20 khz, viser eksperimenter, at størstedelen af musical noise s frekvenskomponenter ikke varer længere end

17 Opsummering/Konklusion tre blokke, mens rigtige signalers frekvenskomponenter varer længere. Derfor lader han et vindue løbe hen over sit processerede signal, og hvis frekvenskomponenterne er kortere end vinduet og har en amplitude lavere end en forudbestemt tærskel, bliver de fjernet. Den anden metode beskrives af [Ris and Dupont, 2001]. Man udfylder de dale, der er mellem frekvenser med en nedskaleret version af støjens spektrum. Han opskriver metoden som ligning (3.4). { S hvis S > βxm Y t = βx m ellers (3.4) Hvor β er nedskaleringskoefficienten. Det gode ved denne metode er, at [Lathoud et al., 2006] har sammenskrevet den med metoden til spektral subtraktion, derved fås en ligning (3.5) til spektralsubtraktion med indbygget dæmpning af musical noise. Y t b max( X b b α X m b,β X m b ) (3.5) Jeg finder denne metode (3.5) elegant, da den dæmper musical noise uden et postprocesseringsskridt, hvilket gør den mere egnet til realtidsstøjfjerning, og derfor vil jeg benytte den til forsøgene. 3.4 Opsummering/Konklusion Med spektral subtraktion kommer man problemerne med fasevariationer og tidsforskydelse forårsaget af lydens vej gennem rummet til livs. Metoden er dog ikke problemfri, da den kan give artefakter (bla. musical noise), hvis der er for meget forskel på lyden, der bruges til subtraktionen, og lyden som den i virkeligheden er blevet af sin vej gennem rummet.

18 Kapitel 4 NLMS 4.1 Introduktion Ud fra konklusionerne på i kapitel 2 og 3 kan vi se, at det største problem er, at musikken, når den afspilles af højtalerne og optages af mikrofonen, bliver forvrænget og forsinket. Der findes et relateret problem, hvor man har været nødt til at forsøge på at håndtere de to ovennævnte problemer. Dette problem er fjernelse af ekko (ENG: echo-cancelling). Et ekko beskrives nemlig i [Raghavendran, 2003] som et fænomen hvor en forsinket og forvrænget version af en lyd eller et elektrisk signal er reflekteret tilbage til kilden. For at løse dette problem benyttes normalt et adaptivt filter, dvs. et filter hvis koefficienter løbende tilpasses. En af de mest brugte algoritmer til justering af koefficienterne inden for fjernelse af ekko er NLMS algoritmen [Vaseghi, 2000] og derfor vil jeg prøve at bruge den på mit problem. 4.2 Opbygningen af en ekkofjerner En ekkofjerner virker ved at lave et filter ĥ, der skal simulere ekkoets vej fra højtaler til mikrofon. Hvis dette filter er godt nok, kan ekkoet fjernes ved simpel subtraktion som omtalt i kapitel 2. På figur 4.1 har jeg forsøgt på at illustrere ekkofjernerens opbygning. Hvis filteret ikke er godt nok, vil der være en rest x e, efter x b og x ekko er trukket fra hinanden. Hvis filteret er perfekt, vil man stå tilbage med talen (dvs. x e på tegningen er lig y t ). Man kunne undre sig over, at man kan nøjes med ét filter i stedet for tre (et for højtaler, rum og mikrofon). Grunden er at i et LTI system, som jeg antager, systemet er (se afsnit 1.5), gælder det, at de tre LTI systemer, som højtaleren h h, rummet h r og mikrofonen h m udgør, kan foldes med hinanden og give et LTI system med samme output, som de tre serielt forbundet ville have givet [McClellan et al., 2003]. Derfor kan man simulere det hele med blot ét filter. Problemet er så at finde værdierne, der skal bruges i filteret. Det er netop denne opgave, LMS og NLMS algoritmen forsøger at løse. 4.3 LMS algoritmen Ideen i LMS (Least Mean Square) algoritmen er simpel. Man laver et filter ĥ med L koefficienter. Derpå sammenligner man output x ekko fra filtret med et ønsket output 13

19 LMS algoritmen Figur 4.1: Ekkofjerneren bruger et adaptivt filter til at modellere ekkoets vej og laver et estimat af støjen, som kan subtraheres fra det blandede signal. Den stiplede linje viser, at fejlen x e også sendes tilbage til det adaptive filter og bruges til at forbedre filteret med. Illustrationen er inspireret af [Raghavendran, 2003]. x b og justerer koefficienterne i forhold til forskellen på filtrets output og det ønskede signal, som kaldes x e. x e udregnes derfor som formel (4.1) x e (n) = x b (n) ˆx ekko (4.1) hvor ˆx ekko fra figur 4.1 er defineret i formel 4.2 [Hutson, 2003]. ˆx ekko (n) = ĥt (n)x m (n) (4.2) Man skal være opmærksom på, at x m (n) i dette afsnit og det følgende (afsnit 4.4) ikke bare kan ses som x m s n te sample men som en vektor bestående af værdierne fra x m (n) til x m (n (L 1)). Det er måske en smule forvirrende, men da man i litteraturen gør det på denne måde [Smith, 1999], vil jeg også gøre det. De næste filterkoefficienter i ĥ(n) udregnes fra de forrige som vist i formel (4.3) [Vaseghi, 2000]. ( ) ĥ(n + 1) = ĥ(n) + µ x2 e(n) ĥ(n) (4.3) Formel (4.3) tilpasser filterkoefficienten. Metoden er simplere end ligningen afslører. Man kan lettere forstå den, hvis man forestiller sig, den kun arbejder på én filterkoefficient, hvor fejlen er taget til, efter filterkoefficienten er blevet hævet (dvs. brøken er positiv). I det tilfælde sænkes filterkoefficienten (på grund af minusset foran brøken), så ved at gå den modsatte vej af gradienten er ideen, at man ender, hvor fejlen har sit minimum. µ i formel (4.3) styrer, hvor hurtigt tilpasningen foregår - hvis den er for lille, vil tilpasningen være for langsom, og hvis den er for høj, vil værdierne fluktuere. Brøken i formel (4.3) kan omskrives som i formel (4.4) [Vaseghi, 2000]: x 2 e(n) ĥ(n) = 2x m(n)x e (m) (4.4) Hvis (4.4) indsættes i (4.3) (og faktor 2 indregnes i µ), fås filteropdateringslignin-

20 NLMS algoritmen gen i LMS algoritmen (4.5). ĥ(n + 1) = ĥ(n) + µ[x m(n)x e (n)] (4.5) Problemer ved brug af LMS algoritmen I ovenstående afsnit bruges det blandede signal x b som ønsket output. Det er naturligvis kun korrekt, når der ikke er tale eller støj henover. Det er dog det bedste bud, vi har og som tidligere nævnt (i afsnit 2.3.1), vil der kun være tale i korte udbrud. Det betyder, at det ikke er godt, hvis filterkoefficienterne tilpasses for hurtigt, da de så vil forsøge på at fjerne talen også. Dette kan justeres ved at ændre på µ, hvilket jeg vil gøre i eksperimenterne. 4.4 NLMS algoritmen NLMS (Normalized Least Mean Square) algoritmen er en forbedring af LMS algoritmen. Ideen i NLMS algoritmen er at ved at udregne en optimal µ i stedet for at bruge en tilfældig, så får man en hurtigere konvergering, der er uafhængig af signalets amplitude [Hutson, 2003]. Formlen for µ er formel (4.6). µ(n) = 1 x T m(n)x m (n) (4.6) Hvor x T m(n) er x m (n) transponeret - husk at x m (n) her ikke er en værdi men en vektor med de L sidste værdier af x m (se afsnit: 4.3). µ(n) er et udtryk for den inverse af den totale forventede energi af x s koefficienter [Hutson, 2003]. Når man indsætter formel (4.6) i formel (4.5), får man NLMS filteropdateringsligningen (4.7). ĥ(n + 1) = ĥ(n) + x m(n)x e (n) x T (4.7) m(n)x m (n) Ved brug af formel (4.7) kan man risikere at få en negativ nævner. Derfor adderer man ofte en lav værdi γ til nævneren, som løser problemet, og samtidig sikrer at algoritmen ikke tager alt for store skridt, når x T m(n)x m (n) bliver små [Raghavendran, 2003]. Desuden kan man stadig komme ud for, at filteret konvergerer for hurtigt og forsøger at fjerne tale (som nævnt i afsnit 4.3.1). Dette kan reguleres ved at forhøje γ, hvilket jeg vil prøve i eksperimentet. 4.5 Opsummering/Konklusion NLMS er en interessant algoritme til at estimere lydens vej med. Algoritmen har dog visse problemer i forhold til mit brug af den. Paradoksal nok skal man kende det signal, man ønsker at finde. Dette kan løses ved at lade algoritmen benytte det blandede signal x b som ønsket signal, men kun lade algoritmen konvergere mod det langsomt, så sporadisk tale ikke vil ødelægge estimeringen af x m. Da ekkofjernere har et problem analogt til mit og benytter NLMS filtre, virker det naturligt at jeg forsøger at benytte en lignende løsning. Den største ulempe ved metoden er dog nok, at den afhænger stærkt af filtrets præcision.

21 Kapitel 5 Hybrid metode 5.1 Beskrivelse Under afprøvningen af metoderne bemærkede jeg, at resultatet af NLMS og LMS algoritmerne ikke var lige så godt, som jeg havde håbet. Derfor prøvede jeg at lytte til resultatet af filtret ˆx ekko (n) (ligning (4.2)), inden det subtraheres fra x b for at give x e som vist i formel 4.1. Det viser sig, at ˆx ekko (n) lyder rigtigt godt - helt som man ville forestille sig, musikken lød, hvis man fjernede talen fra det blandede signal x b. Så det er som sådan ikke ˆx ekko (n), der er noget galt med men måske nærmere, at ˆx ekko (n) forsøges subtraheret fra x b. Dette er jo netop den fremgangsmåde, jeg har argumenteret imod i kapitel 2 og 3. Derfor vil jeg prøve at benytte NLMS og LMS til at estimere ˆx ekko (n) med men i stedet for almindelig subtraktion benytte spektral subtraktion som beskrevet i kapitel 3. Derved skulle effekten af eventuelt manglende præcision i filtrets estimering af tidsforskydelsen og eventuelle faseproblemer blive reduceret. Samtidig vil det adaptive filter virke som en amplitude estimator i stedet for de to tidligere præsenterede besværlige metoder fra afsnit og Dermed vil de problemer jeg nævnte i afsnit 2 (tidsforskydelse, amplitudeforskel, mikrofons og højtalers karakteristika og fasevariationer) alle være forsøgt adresseret. På figur 5.1 har jeg forsøgt at vise den beskrevne metode, som jeg i resten af rapporten vil referere til som hybrid metoden. Figur 5.1: Som ved ekkofjerneren på figur 4.1 bruges et adaptivt filter til at modellere ekkoets vej og laver et estimat af støjen. Her benyttes blot spektral subtraktion. Fejlen x e udregnes dog stadig på samme måde og sendes tilbage til adaptionsalgoritmen, da ideen i denne hybride metode netop er, at ˆx ekko (n) er god nok. 16

22 Kapitel 6 Forsøget I dette kapitel vil jeg beskrive forsøgene og deres resultater. 6.1 Formål med forsøget Jeg ønsker at måle, hvor gode resultater metoderne giver, og hvor krævende de er. De metoder, jeg ønsker at afprøve, er de beskrevne i kapitel 2 (den naive metode), kapitel 3 (spektral subtraktion), kapitel 4 (NLMS) og kapitel 5 (hybrid metoden). 6.2 Implementering af test Udarbejdelse af testfilerne For at kunne lave en fair sammenligning skal alle metoder naturligvis have samme input. Derfor laver jeg en simultan optagelse af lyden fra mono-mix porten og fra et webkamera s mikrofon, hvilket svarer til den beskrevne opstilling fra afsnit 1.1. Forskellen er bare, at jeg her gemmer kilderne i hver sin lydfil. Dermed skal jeg implementere metoderne og have dem til at læse fra filerne i stedet for at optage direkte fra mono-mix porten og webkameraet, hvilket vil sikre, at alle metoder får samme input. Hver testfil indeholdt tale med følgende fem kommandoer, der i forvejen blev brugt i min musikafspiller: computer play music, computer stop playing, computer mute, computer stop, computer what time is it. I de følgende underafsnit er der korte beskrivelser af testfilerne. Testfilerne bad4, bad9 og bad12 Der er tre testfiler, der benytter uddrag af Michael Jackson s sang Bad som baggrundsstøj. Stedet i sangen er omtrent det samme for alle filer og er et sted, hvor han synger (dvs. ikke kun instrumental). Testene hedder bad4, bad9 og bad12 og er navngivet efter volumenindstillingen på mit lydkort. Ved bad9 snakkede jeg dog højere end ved de to andre. Testene er valgt, da musikken er repræsentativ for almindelig popmusik. Referenceresultatet (talegenkendelse uden filtrering) gav henholdsvis 1 rigtig (for bad4), 4 rigtige (for bad9) og 0 rigtige (for bad12) ud af 5 mulige, dermed er der mulighed for at se om metoderne hjælper, både når der er meget brug for dem, og når der kun er lidt brug for dem. 17

23 Implementering af test Testfilen mozart Denne testfil benytter et uddrag af Mozarts symfoni nummer 39 som baggrundsstøj. Den er valgt, da den er uden sang, og dermed burde den ikke være lige så forstyrrende som bad4, bad9 og bad12. Testfilen egentale Den sidste testfil er egentale. Denne testfil er lavet ved, at jeg først indspillede en lydfil med min egen tale, hvor jeg sagde nogle engelske ord. Derpå blev den lydfil afspillet i stedet for musik under indspilning af kommandoerne. Dermed findes der en test, hvor musikkens frekvenser er som min stemmes. Derfor kræves det af støjfjerningsmetoden at den ikke må dæmpe musikkens frekvenser for meget, da den dermed også vil fjerne talen Implementering af metoder For at afprøve metoderne i praksis har jeg implementeret dem og kørt dem på en PC med en Intel Celeron 2.0 GHz processor med 1 GB RAM. Alle metoder er implementeret i C++ og kompileret med Microsoft Visual Studio.NET 2003 For at reducere udviklingstiden og for at gøre programmet hurtigere, har jeg benyttet mig af IT++ [Ottosson, 2006] et signalbehandlingsbibliotek til C++ med funktioner som: fouriertransformationer, Hamming vindue og vektorregning. Generelt skal mine hastighedsresultater dog kun tages som indikative, da man kunne have brugt lang tid på at optimere hver enkelt metodes køretid Metodernes parametre Da hver af metoderne har parametre tilknyttet, der betyder noget for deres præstation, og jeg er interesseret i at få det bedst mulige resultat og samtidig også en forståelse for hvilke metoder, der kan benyttes i realtid, vil jeg lave et program, der benytter hver af metoderne med forskellige parametre. Da der er mange parametre til hver funktion, og endnu flere mulige værdier, har jeg desværre af tidshensyn måttet begrænse mig. Herunder følger tabellerne 6.1, 6.2 og 6.3 over hvilke parametre, der blev benyttet for hver metode i testene. Beskrivelse Afsnit Værdier testet Kompensation for tidsforskydelse {falsk, sand} Korrektion af amplitudeforskel {falsk, sand} Skaleringskonstant til musiksignalet (giver kun mening når korrektion af amplitudeforskel ikke er slået til) Tabel 6.1: Parametre afprøvet på den naive metode {1/0.2, 1/0.6, 1/1.0, 1/1.4, 1/1.8} Til hybrid metoden beskrevet i kapitel 5 burde man naturligvis prøve alle parametre fra både tabel 6.2 og 6.3. Dette ville dog tage for lang tid i praksis så efter at have fået resultater fra de andre metoder, valgte jeg de parametre, der synes at betyde mest for et godt resultat. Derfor har nogle af parametrene i tabel 6.4 kun en værdi. Korrektion af amplitudeforskel blev ikke benyttet, da LMS filtet i sig selv estimerer amplituden. Estimatet var dog konstant for lavt, og jeg oplevede bedre resultater ved at forstærke det estimerede signal, og derfor er skaleringskonstanten fastsat til 1/0.2 i stedet for 1.

24 Implementering af test Beskrivelse Afsnit Værdier testet Kompensation for musical noise {falsk, sand} Musical noise kompensationsskalering - β fra {0.1, 0.8, 1.5} ligning (3.5) (giver kun mening når kompensation for musical noise er slået til) Korrektion af amplitudeforskel {falsk, sand} Skaleringskonstant til musiksignalet (giver kun mening når korrektion af amplitudeforskel {1/0.2, 1/0.6, 1/1.0, 1/1.4, 1/1.8} ikke er slået til) Vinduesstørrelse for fouriertransformationen {512, 16384, 44100} Tabel 6.2: Parametre afprøvet på spektral subtraktion Beskrivelse Afsnit Værdier testet L - længden på filtret 4.3 {50, 250, 450, 650} Brug af normalisering (så det bliver NLMS i 4.4 {falsk, sand} stedet for LMS) µ - tilpasningshastighedskoefficient fra formel (4.5) 4.3 {0.001, 0.003, 0.005, 0.007, 0.009} γ - dæmpning af NLMS tilpasningshastighed 4.4 {50, 250, 450, 650} Tabel 6.3: Parametre afprøvet på LMS Beskrivelse Afsnit Værdier testet L - længden på filtret 4.3 {50, 250, 650} Vinduesstørrelse for fouriertransformationen {512, 16384, 44100} Brug af normalisering (så det bliver NLMS i 4.4 {falsk, sand} stedet for LMS) Kompensation for musical noise {falsk, sand} µ - tilpasningshastighedskoefficient fra formel 4.3 {0.001} (4.5) γ - dæmpning af NLMS tilpasningshastighed 4.4 {450} Musical Noise kompensationsskalering - β fra {0.1} ligning (3.5) (giver kun mening når kompensation for Musical Noise er slået til) Skaleringskonstant til musiksignalet {1/0.2} Tabel 6.4: Parametre afprøvet på hybrid metoden

25 Resultater Evaluering af resultater Da der var så mange parametre, der blev varieret til metoderne (se afsnit 6.2.3), fik jeg også så mange resultater, at jeg blev nødt at have computeren til at evaluere resultaterne. Problemet i dette er, at når filtreret støj blev kørt gennem talegenkenderen, så fik jeg som resultat, hvilke kommandoer talegenkenderen mente at have hørt og tidspunkter for disse. Det, jeg er interesseret i, er, hvor mange rigtige genkendelser der er, hvor mange falske hits og hvor lang tid støjfjerningsmetoden er om at køre. Derfor var det nødvendigt at indikere i hver støjfyldt talefil, hvad der blev sagt, så evalueringsprogrammet havde noget at sammenligne med. Derfor endte evalueringsprogrammet med for hvert talegenkendelsesresultat at undersøge, om det var det rigtige, der blev genkendt på det rigtige tidspunkt. Det var naturligvis svært at finde helt præcist hvornår, udtalelsen af et ord begynder i en lydfil, så evalueringsprogrammet kompenserer for dette ved at tillade, at talegenkenderen genkender en kommando fra et halvt sekund før min angivelse af begyndelsestidspunktet og op til et sekund efter. Hvis den rigtige kommando findes inden for intervallet, tælles det som 1 rigtig, hvis en forkert kommando genkendes, tæller det som et falsk hit. For at vide om metoderne forbedrer eller forværrer signalet, køres som reference den ufiltrerede fil (den støjfyldte optaget af webkameraet s mikrofon) gennem evalueringsprogrammet. Derved kan man se hvor mange rigtige, talegenkenderen ville få uden hjælp fra støjfjerningsmetoderne. 6.3 Resultater Da der som tidligere nævnt (i afsnit 6.2.3) er mange resultater, har jeg valgt kun at vise de bedste for hver metode ved at lade resultaterne sortere faldende efter antallet af rigtige, hvis det var uafgjort sorteres stigende efter antallet af falske hits og til sidst stigende efter køretid. Resultatgraferne findes i bilag A, side 25. Jeg vil her kort beskrive metodernes resultater for hver af testfilerne bad4 Referenceresultatet (resultatet uden støjfjerning) for bad4 var 1 rigtig og 1 falsk hit. Den naive metode formåede kun at fjerne det falske hit (som det ses på figur A.1). De bedste resultater fik metoden uden forsøg på korrektion af tidsforskel og amplitudeforskel. Desuden kan det ses, at den naive algoritme for korrektion af tidsforskydelse er alt for langsom (over 14 sekunder). Spektral subtraktion virkede bedre og gav 2 rigtige ved de bedste parametre (se figur A.2), og det var endda på under 1 sekund. Køretiden afhænger dog meget af parametrene, og ved mindre velvalgte parametre opnåede metoden samme resultat, men på 5,5 sekunder. Generelt forværredes resultatet dog ikke, og den klarede sig bedre end den naive metode LMS klarede sig ret dårligt i og med den hverken forbedrede eller forværrede resultatet (se figur A.3). Hybrid metoden klarede sig klart bedst med 4 rigtige og 0 falske hits (se figur A.4). Det opnåede den på 4,5 sekunder. Med andre parametre fik den kun 3 rigtige men til gengæld tog det under et sekund. Sættes længden på filtret op, samtidig med fouriertransformationsvinduets størrelse sættes ned, tager operationen dog hele 9 sekunder og får kun 3 rigtige og 1 falsk hit.

26 Resultater bad9 Referenceresultatet for bad9 var 4 rigtige og 0 falske hits. Det er ret godt klaret af talegenkenderen og kan kun forklares med, at jeg talte højere end i bad4. Tendensen for den naive metode er her endnu værre end ved bad4. Dette fremgår tydeligt af figur A.5. Den får som det bedste resultat 1 rigtig og bruger 15 sekunder på det. Spektral subtraktion klarer sig nogenlunde med sit bedste resultat på 4 rigtige (se figur A.6), men alle andre resultater er en forringelse i forhold til referenceresultatet, hvilket sandsynligvis skyldes at der subtraheres frekvenser, der er vigtige for talegenkenderen. LMS gør som ved bad4 ingen forskel (se figur A.7), men det går hurtigt og den får 4 rigtige for sine 9 bedste parametre. Hybrid metoden udmærker sig som den eneste ved at forbedre resultatet og får 5 rigtige med de bedste parametre (se figur A.8), 4 rigtige ved de fem næste og derefter 3 rigtige bad12 Referenceresultatet for bad12 var 0 rigtige og 0 falske hits. Det skyldes sandsynligvis, at musikken nu er blevet meget høj. Den naive metode ændrer ikke på referenceresultatet, som det ses af figur A.9. Spektral subtraktion klarer sig til gengæld godt og giver 3 rigtige ved de to bedste parametersæt, 2 rigtige ved det tredje bedste parametersæt og derefter 0 rigtige (se figur A.10). LMS forbedrer for første gang referenceresultatet med 1 rigtig (se figur A.11). Desværre kommer der også 1 falsk hit på alle målinger efter de to bedste. Hybrid metoden klarer sig igen bedst med 4 rigtige (se figur A.12). Det falder til 3 rigtige for de 2 næste parametersæt og falder støt derefter, hvilket indikerer, at de rigtige parametre er vigtige for, at hybrid metoden klarer sig godt mozart Referenceresultatet for mozart var 4 rigtige og 0 falske hit. Dette skyldes sandsynligvis, at instrumentalmusik ikke har så mange frekvenserne i området, hvor talegenkenderen lytter. Hvis en metode er dårlig, vil den dog kunne beskadige talen alligevel, og det er, hvad den naive metode gør. Som det ses på figur A.13, er det bedste resultat 2 rigtige og 1 falsk hit. Spektral subtraktion forbedrer ved de to bedste parametersæt resultaterne til 5 rigtige og holder ellers 4 rigtige (se figur A.14). Som det ses af figur A.15 klarer LMS sig rigtigt godt og giver 5 rigtige med de syv bedste parametersæt (og er den hurtigste af alle metoderne). Hybrid metoden får også 5 rigtige de bedste syv gange (se figur A.16), men bruger længere tid end LMS ved de fleste parametre egentale Referenceresultatet for sidste test egentale var 3 rigtige og 0 falske hit. Den naive metode forværrer endnu engang situationen med 2 rigtige (se figur A.17). Spektral subtraktion giver 4 rigtige for de bedste parametre (se figur A.18), men introducerer 1 falsk hit for de fire næstbedste parametre. LMS forbedre intet, men giver konsekvent 3 rigtige (figur A.19). Hybrid metoden giver 4 rigtige for de tre bedste, men introducerer ligesom spektral subtraktion derefter 1 falsk hit (se figur A.20).

27 Diskussion af resultaterne 6.4 Diskussion af resultaterne Ud fra resultaterne vil jeg i dette afsnit forsøge at sige noget generelt om hver metode. Der var fem testfiler med fem kommandoer i hver, så hver metode kunne maksimalt have haft 25 rigtige, hvis man summerer de bedste resultater fra alle tests. Uden noget filter får talegenkenderen 12 rigtige. Den naive metode havde i alt 6 rigtige, LMS havde 14, spektral subtraktion havde 18 og hybrid metoden havde 22 rigtige. Således klarede hybrid metoden sig bedst i testen, når den havde de rigtige parametre. I praksis vil man ikke have mulighed for at vælge parametre efter situationen. Derfor var jeg interesseret i at se hvilke faste parametersæt, der klarede sig bedst for hver metode gennem alle testfilerne. De resulterende grafer kan ses i bilag B, side 40. Her vinder hybrid metoden også men mere knebent med kun 17 rigtige og 2 falske hits. Derefter kommer spektral subtraktion med 15 rigtige og 0 falske hits. LMS har 14 rigtige og 1 falsk hit. Den naive metode har kun 4 rigtige. Det betyder dog ikke, at metoderne ikke er værd at implementere i praksis, da der jo var en stigning af rigtige selv ved faste parametre i forhold til referenceresultatet (undtagen for den naive metode) Den naive metode Set som en helhed viser resultaterne af den naive metode, at problemet med at fjerne støj ikke er så simpelt, som metoden antager. Resultaterne blev kun forbedret ved bad4 (et falsk hit blev fjernet) i alle andre tests forværres resultatet ved brug af metoden. Af resultaterne kan det også ses, at korrigering af tidsforskydelse ved hjælp af krydskorrelation som beskrevet i afsnit er alt for processorkrævende. Da hver fil varer 10 sekunder, må der maksimalt bruges 10 sekunder for, at det kan bruges i realtid, og så vil der endda ikke være noget tid til talegenkenderen. Kørsler med tidskorrigering tog alle omkring 15 sekunder. Der er naturligvis måder, man kunne forsøge at få metoden til at køre hurtigere på - men resultaterne af testen viser, at det ikke er umagen værd, da den naive metode oftest forværrer frem for at forbedre Spektral subtraktion Spektral subtraktion har ved forsøgene vist sig at være rigtigt godt. Den automatiske korrektion af amplitudeforskel (afsnit 3.2.2) virkede dog ikke helt så godt, som jeg havde håbet. Det er lidt bekymrende, da resultaterne derfor kan være afhængige af lydendes volumen. Det burde dog have vist sig mere i testene, hvis det var et stort problem, da testene både har høj og lav musikstøj. De bedste parametre benytter ikke automatisk kompensation for amplitudeforskel men en høj skaleringskonstant til musiksignalet. Det betyder sansynligvis, at der bliver trukket for meget fra (men til gengæld forsvinder det meste af støjen). Oversubtraktion forårsager dog også musical noise, hvilket passer fint med, at de ni bedste samlede resultater (figur B.2) alle benytter korrektion af musical noise som beskrevet i 3.3. Køretiden for spektral subtraktion var acceptabel med samlet 20 sekunders processeringstid for de bedste parametre for alle fem filer (50 sekunders input) LMS LMS var utroligt hurtig i mange tilfælde. Desværre var den heller ikke særligt præcis og ved parametrene, der gav dens bedste præstation, var den lige så langsom som spektral subtraktion. Dette skyldes den store filterstørrelse (L = 650) kombineret

Vis mere