Multimedieteknologi G SCOD. Espen Højsgaard Rune Højsgaard Sune J. Jensen

Multimedieteknologi G3 23 SCOD Espen Højsgaard Rune Højsgaard Sune J. Jensen 1

Indhold 1 Analyse 4 1.1 Den psykoakustiske model........................... 4 1.1.1 ATH................................... 4 1.1.2 Kritiske bånd [3, s.3-4]......................... 4 1.1.3 Frekvensmaskering [3, s.4-5]...................... 5 1.2 Ind- og afkodning................................ 8 1.2.1 maxbit.................................. 8 2 Eksperimentel validering 9 2.1 Generelle betragtninger om objektive kvalitetsmål.............. 9 2.2 Generelle betragtninger om plots af 5 te frame................ 9 2.3 pop.wav..................................... 1 2.3.1 Subjektiv karakterisering af lydsignalet................ 1 2.3.2 Subjektiv karakterisering af det rekonstruerede signal........ 1 2.3.3 Objektive kvalitetsmål......................... 1 2.3.4 Kommentarer til den psykoakustiske analyse for 5 te frame..... 11 2.4 song.wav..................................... 11 2.4.1 Subjektiv karakterisering af lydsignalet................ 11 2.4.2 Subjektiv karakterisering af det rekonstruerede signal........ 11 2.4.3 Objektive kvalitetsmål......................... 11 2.4.4 Kommentarer til den psykoakustiske analyse for 5 te frame..... 11 2.5 tuba.wav..................................... 11 2.5.1 Subjektiv karakterisering af lydsignalet................ 12 2.5.2 Subjektiv karakterisering af det rekonstruerede signal........ 12 2.5.3 Objektive kvalitetsmål......................... 12 2.5.4 Kommentarer til den psykoakustiske analyse for 5 te frame..... 12 2.6 violin.wav.................................... 12 2.6.1 Subjektiv karakterisering af lydsignalet................ 12 2.6.2 Subjektiv karakterisering af det rekonstruerede signal........ 13 2.6.3 Objektive kvalitetsmål......................... 13 2.6.4 Kommentarer til den psykoakustiske analyse for 5 te frame..... 13 2.7 guitar.wav.................................... 13 2.7.1 Subjektiv karakterisering af lydsignalet................ 13 2.7.2 Subjektiv karakterisering af det rekonstruerede signal........ 13 2.7.3 Objektive kvalitetsmål......................... 14 2.7.4 Kommentarer til den psykoakustiske analyse for 5 te frame..... 14 3 Eksperimenter med a, b og maxbit 14 3..5 Ændringer i a.............................. 16 3..6 Ændringer i b.............................. 17 3..7 Ændringer i bit............................. 17 2

3..8 Ændringer i a, b og maxbit...................... 17 A Plots vdr. eksperimentel validering 19 B Plots vdr. eksperiemnter med a, b og maxbit 22 X Litteratur 25 3

1 Analyse Dette afsnit beskriver de overvejelser vi har gjort os i.f.m. implementationen af SCOD. Vi har fulgt den fremgangsmåde, der er beskrevet i [3] - med de modifikationer som opgaveteksten [2] foreskriver og vi vil herunder uddybe de enkelte trin samt afklare de få uklarheder vi er stødt på. 1.1 Den psykoakustiske model Den psykoakustiske models opgave i programmet er at undersøge hvilke koefficienter, der - pga. ørets begrænsninger - ikke behøver at blive kodet. De tre egenskaber vi skal beskæftige os med (jf. [2, s.4]) er henholdsvis den absolutte høregrænse (ATH 1 ), kritiske bånd og frekvensmaskering. Vi vil altså ikke beskæftige os med temporal maskering og præ-ekko forvrængning. 1.1.1 ATH Den absolutte høregrænse er - som navnet antyder - et mål for hvor kraftig en lyd skal være før den kan høres. Denne grænse er ikke den samme for alle frekvenser men kan tilnærmes med funktionen 2 [3, (1)]: ( ),8 ( ) 4 f f T q (f) = 3, 64 6, 5e,6(f/1 3,3)2 + 1 3 db (1) 1 1 hvor f er frekvensen. Programmet bruger ATH til at frasortere frekvensindhold med så lille amplitude at det ikke kan høres. 1.1.2 Kritiske bånd [3, s.3-4] Det menneskelige øre er indrettet således, at den opfattede lydstyrke af et signal med konstant styrke vil være den samme, indenfor en vis båndbredde. Denne båndbredde varierer efter frekvensen og kan tilnærmes med funktionen 3 [3, (2)]: hvor f er centerfrekvensen. BW c (f) = 25 + 75 [ 1 + 1, 4(f/1) 2],69 db (2) Faste bånd For at gøre det nemmere at operere med kritiske båndbredder, har man fastlagt 25 kritiske bånd, hvis grænser kan ses i [3, Table 1]. Ved at bruge disse bånd undgår man at skulle regne med den kontinuerte funktion (2), hvorved kodningsalgoritmen kan gøres simplere, da den kan betragte hvert kritisk bånd for sig i stedet for at skulle bruge et glidende vindue af variabel bredde. 1 ATH = Absolute Treshold of Hearing 2 for en ung person med skarp hørelse 3 for en gennemsnitlig person 4

Bark-skalaen Funktionen [3, (3)]: [ ( ) ] 2 f z(f) = 13 tan 1 (, 76f) + 3, 5 tan 1 Bark (3) 75 hvor f er frekvensen, kan bruges til at konvertere en frekvens til Bark-skalaen. Denne skala er fastlagt således at afstanden mellem to kritiske bånd er én Bark. Bark-skalaen anvendes i programmet i forbindelse med frekvensmaskering (afs. 1.1.3). Støj For at opnå en større komprimering af signalet, forsøger den anvendte algoritme at filtrere koefficienter - der repræsenterer støj - fra. Dette sker indenfor hvert kritisk bånd, ved at der udregnes en støjgrænse. Koefficienter herunder kan fjernes uden at den opfattede styrke ændres, da det sker indenfor et kritisk bånd. Den nærmere fremgangsmåde for udregningen af støjgrænsen hænger sammen med frekvensmaskering og vil derfor blive gennemgået i den sammenhæng. 1.1.3 Frekvensmaskering [3, s.4-5] Kodning ud fra frekvensmaskering bygger på den egenskab ved det menneskelige øre at en frekvens kan blive maskeret af en anden frekvens, der har større styrke. Ved at identificere de koefficienter, der kan maskere andre koefficienter, kan vi udregne en grænse, der markerer hvor stor en given koefficient skal være for ikke at blive maskeret; koefficienterne under grænsen behøver ikke at blive kodet. I det følgende vil vi gennemgå den metode vi har brugt, der som nævnt følger [3, II.G step 2-5] bortset fra de ting opgaveformuleringen udelukker [2, s.4]. Vi vil ikke være helt stringente i.f.m. brugen af funktioner der er defineret i forhold til frekvenser, i det vi vil anvende dem på såvel frekvenser som på koefficient-indeks. I det sidste tilfælde må læseren selv foretage følgende udskiftning i formlen (jf. [2, s.3]) hvor i er koefficient-indekset. f = 441 2 256 i Tonale markører Vi starter med at identificere de koefficienter der i lydstyrke ligger væsentligt over deres naboer. Dvs. at vi konverterer koefficienterne til db ved at bruge den formel der givet i [2, s.3 punkt 1] og lokaliserer de lokale maxima. Følgende er en omskrivning af førnævnte formel: P (k) = PN + 2 log 1 ( c k ) db (4) PN er en konstant som vi har sat til 96dB jf. [2] og c k er værdien af den k te koefficient. Udover at de to omkringliggende koefficienter skal have en mindre lydstyrke, så skal koefficienten k også opfylde P (k) > P (k ± k ) + 7dB (5) 5

hvor k er givet ved [3, (19)]: 2 for 2 < k < 63 k [2, 3] for 63 k < 127 [2, 6] for 127 k 256 (6) De koefficienter lever op til ovenstående krav, kalder vi tonale markører og mængden af dem S T. For hver tonal markør udregnes en maskeringsværdi P T M der er givet ved [3, (2)] P T M (k) = 1 log 1 1 1,1P (k+j) db, k S T (7) j= 1 Ud fra disse maskeringsværdier kan vi udregne hvor stor maskeringseffekten af markørerne er, men da denne udregning er næsten identisk for støjmarkører gennemgår vi først, hvorledes sidstnævnte findes. Støjmarkører Som nævnt i afsnit 1.1.2, så forsøger algoritmen indenfor hvert kritisk bånd, at fastlægge en støjgrænse. Dette sker ved at lade den koefficient, der ligger nærmest ved den geometrisk gennemsnitlige spektrallinje for det kritiske bånd, være støjmarkør. Denne markør bliver - som for tonalmarkører - tillagt en maskeringsværdi, der kan bruges til at bestemme maskeringseffekten på de omkringliggende koefficienter. Koefficientindekset for støjmarkørerne indenfor hvert bånd bliver udregnet ved formlen [3, (22)] 4 : ( u ) 1/(u l+1) k = round j (8) j=l l og u er henholdsvis det nederste og det øverste indeks i det pågældende kritiske bånd. Det fremgår ikke tydeligt af [3] om den afrunding - som vi har indsat i formlen - faktisk skal foretages, men vi opfatter den som værende underforstået. Maskeringsværdien for en støjmarkør udregnes ud fra de koefficienter - indenfor det respektive kritiske bånd - der ikke er tonale markører eller ligger i den umiddelbare nærhed af en sådan [3, (21)]: P NM (k) = 1 log 1 1,1P (j) db, (9) j [l, u] \ {k, k ± 1, k ± k k S T } j hvor l og u er de samme som for formel (8), k er defineret i formel (6) og S T nævnt mængden af tonale markører. er som 4 Der er en skrivefejl i [3, (22)]: u og l er byttet om i potensen. 6

Sortering af markører Efter at både de tonale markører og støjmarkørerne er fundet foretages en udvælgelse, således at det antal markører, der skal udregnes maskeringseffekt for, bliver formindsket. Denne udvælgelse består af to dele: markører med maskeringsværdier under ATH kasseres, da koefficienter under ATH vil blive kasseret om de er maskerede eller ej. markører inden for en halv bark sammenlignes og kun den største beholdes. Det er i den forbindelse værd at bemærke, at der er forskel på hvilken rækkefølge markørerne bliver sammenlignet i. F.eks. i det tilfælde hvor der er tre markører a, b og c, hvorom der gælder a < b < c P T M,NM (a) < P T M,NM (b) < P T M,NM (c) z(b) z(a), z(c) z(b) <, 5 Bark z(c) z(a) >, 5 Bark da vil markørerne a og b blive kasseret hvis markørerne gennemgås i stigende rækkefølge, mens det i faldende rækkefølge kun er markør b. Da rækkefølgen ikke fremgår af [3], vælger vi at gøre det efter stigende indeks. Da det i [2, s.4] anbefales ikke at reorganisere markørbånd, har vi undladt dette trin og vi vil nu beskrive, hvorledes maskeringseffekterne af markørerne udregnes. Maskeringsgrænser Maskeringsgrænsen skabt af en given markør j for koefficienten i kan generelt beskrives ved funktionen [3, (27),(29)] T M (i, j) = P T M,NM (j) a b z(j) + SF ( i, j) (1) hvor a og b er konstanter og SF (i, j) er følgende funktion [3, (28)] SF (i, j) = 17 z, 4P T M,NM (j) + 11 for 3 z < 1 (, 4P T M,NM (j) + 6) z for 1 z < 17 z for z < 1 (, 15P T M,NM (j) 17) z, 15P T M,NM (j) for 1 z < 8 z = z(i) z(j) db, (11) Som det ses, så udregnes maskeringseffekten kun for de koefficienter der ligger indenfor en vis Bark-afstandaf markøren, hvilket jf. [3, s.1] skyldes at maskeringseffekten i større Bark-afstand fra markøren er så ubetydelig at det er rimeligt at spare på beregningerne. Konstanterne a og b i formel (1) er forskellige alt efter hvilken type markør j er. a er 6,25 for tonale markører og 2,25 for støjmarkører (jf. [3, (27),(29)]). a s betydning ses at være en lodret forskydning af grafen for T M, dvs. at jo større a er jo lavere 7

vil maskeringsgrænserne komme til at ligge, hvorved kompressionen af signalet vil blive mindre. b er,275 for tonale markører og,175 for støjmarkører (jf. [3, (27),(29)]). Da b bliver ganget med markørens Bark-værdi og trukket fra maskørværdien, betyder det at maskeringsgrænsen forskydes længere ned for høje frekvenser end for lave (så længe b > ). Den globale grænse Efter at have udregnet såvel ATH som maskeringsgrænserne for markørerne bruges formlen [3, (3)] ( T g (i) = 1 log 1 1,1Tq(i) + ) 1,1T M (i,l) l db, l {markør-indeks} (12) til at udregne den globale grænse, som samtlige koefficienter derefter kan holdes op imod; kun dem - hvis lydstyrke ligger over T g - skal kodes. 1.2 Ind- og afkodning Når den psykoakustiske model har afgjort, hvilke koefficienter der skal kodes, skal disse konverteres til db-værdier og kvantificeres. Herefter genskabes koefficienterne således at signalet kan genskabes. Dvs. at vi ikke genererer den kodede bitfølge som en normal koder ville, men blot skaber det samme informationstab; på den måde kan vi subjektivt bedømme kvaliteten af den psykoakustiske model samt koefficient-kodningsmetoden. Endvidere foretager vi i.f.m. med kodningen en udregning af hvor mange bit den kodede bit-følge ville være på. Da vi uden ændringer følger fremgangsmåden beskrevet i [2, s.4-5] vil vi ikke beskrive processen her, men blot kommentere betydningen af maxbit. 1.2.1 maxbit maxbit er det maksimale antal bit som koderen må bruge til en enkelt koefficient. Som det ses af formlen [2, s.5], så er maxbit afhængig af ATH. Dette skyldes at vi gerne vil holde kvantificeringsstøjen under ATH. Det betyder, at frekvenser, hvor ATH er meget lav, skal kodes med flere bit end de frekvenser hvor ATH er større. Hvis vi f.eks. skal kode en koefficient, der er placeret i ATH s globale minimum, giver formlen ( ) maxbit round = maxbit, maxbit 1, +, 5 log 1 1 hvorved kvantificeringsstøjen bliver mindst mulig. 8

2 Eksperimentel validering I dette afsnit foretages en subjektiv- og objektiv evaluering af de 5 lydprøver, foruden en række eksperimenter med komprimeringsindstillingerne på lydprøve guitar.wav. Som det fremgår af sidste afsnit, har vi jf. opgaveformuleringen [2], valgt ikke at implementere reorganisering af markørbånd, temporal maskering eller præ-ekko forvrængning i vores maskeringsfunktioner. Af samme årsag forventer vi at vores rekonstruerede lydprøver lader en del at ønske i kvalitet. Vores forudsætninger for at give en god subjektiv evaluering af lydprøverne er desværre ikke særligt gode. Vi har ikke direkte studeret nogle værktøjer til subjektiv evaluering af et lydstykke og vi har heller ingen træning. Desuden er lydende afspillet fra en computer, hvilket kan tænkes at påvirke lydsignalet med støj og manglende dybde og dynamik. På baggrund af dette har vi valgt, at den subjektive vurdering af hver lydprøve skal omhandle følgende: komponenter: Bestemmelse af forskellige komponenter (f.eks. sang og forskellige instrumenter) styrke: Styrken af de enkelte komponenter i forhold til hinanden støj/klarhed: Er der støj i lydprøven? Er de enkelte komponenter klare? 2.1 Generelle betragtninger om objektive kvalitetsmål Både kvadratmiddelfejlen (rms-error i udskriften fra programmet) og signal-til-støj forholdet (SNR_rms i udskriften fra programmet), beregnet på den udleverede programsskals måde, er beregnet for hele lydstykket. Da hver frame, f.eks i et stykke popmusik, kan ændre sig enormt meget, er rms-error og SNR_rms fra udskriften, kun godt for meget grove betragtninger, af enkelte frames. For hver lydprøve kan vi blot holde rms og SNR op mod kompressionsfaktoren. Vi kan ikke analysere i forhold til 5 te frame, da det på ingen måde er sikkert at SNR_rms og rms-error er representative for denne frame). Vi undrer os derfor noget over ønsket om kommentarer, da vi mener tallene taler for sig selv, jf. [1] - altså jo mindre rms-error jo bedre og jo større SNR_rms jo bedre. Af samme årsag nøjes vi med at præsentere resultaterne uden yderligere kommentarer end denne. 2.2 Generelle betragtninger om plots af 5 te frame For alle plottene af det originale signal og det rekonstruerede (mærket (b) i samtlige figurer), gælder det, at de giver et umiddelbart indblik i hvor godt den enkelte frame er rekonstrueret. Ligger de to plot tæt, er den godt rekonstrueret og ligger de langt fra hinanden er det mindre godt rekonstrueret. Da vi mister data i den psykoakustiske model, vil de to plots aldrig blive ens (med undtagelse af tomme signaler). 9

I tilfælde af at rms-error er representativ for den 5 te frame, vil der være en flot sammenhæng mellem størrelsen af rms-error og afvigelsen i det rekonstruerede signal (jo mindre rms-error, des bedre rekonstruktion). For alle plot mærket (a), findes en forklaring af de enkelte koder i starten af bilag A. For alle gælder det, at de følger de regler der er lagt i [3] afsnit G, hvilket i sidste ende betyder, at alle koefficienter der ligger under den røde streg, ikke bliver kodet. 2.3 pop.wav 5,84 sekunder af Peter Gabriels Steam, første gang udgivet på albummet US i 1992, er indeholdt i denne lydprøve. 2.3.1 Subjektiv karakterisering af lydsignalet komponenter: Lydprøven indeholder et sample, hvor Peter Gabriel synger "get alive with the dreamer s dream". Foruden stemmen, kan vi hører en bas, en tromme eller rasle og endelig et eller flere blæseinstrumenter (formodentlig en saxofon). styrke: Sangstemmen er den mest fremtrædende komponent, tæt efterfulgt af bassen og trommer eller rasle. Det mindst fremtrædende komponent er saxofonen. støj/klarhed: Vi kan ikke bedømme om der er støj, da der er for mange komponenter. De enkelte elementer står rimeligt klart. Saxofonen følger sangstemmen i de første 3 sekunder af lydprøven, men i de sidste sekunder skiller den sig tydeligt ud. Trommen/raslen har en sprød, relativt høj lyd. 2.3.2 Subjektiv karakterisering af det rekonstruerede signal Som forventet, er den rekonstruerede lydprøve, ikke ufravigelig originalen. Sangstemmen og bassen, er nemme at skille ud (mangler dog dybde) og trommen/raslen kan også findes, dog noget dæmpet. Saxofonen er derimod ikke til at høre i det meste af lydprøven - til gængæld er der noget der minder om lyden af et bånd der bliver spillet hurtigt frem, hvilket vi formoder er resterne af den rekonstruerede saxofon. Gældende for alle komponenter, er det at de lyder som om de er afspillet bag en vandflade. 2.3.3 Objektive kvalitetsmål Uddata for pop med standard-komprimering: input size = 4124672 output size = 488372 compression ratio F = 8.446 rms-error =.44 SNR_rms = 23.655 1

2.3.4 Kommentarer til den psykoakustiske analyse for 5 te frame Figur 2 (a) og (b) indeholder de ønskede grafer for pop. 2.4 song.wav Denne lydprøve indeholder 6,1 sekunder af Tuck & Patti s Everything s Gonna Be All Right, første gang udgivet på albummet Tears of Joy i 1988. 2.4.1 Subjektiv karakterisering af lydsignalet komponenter: Foruden Patti Andress sang Love the way you call me in the morning time (oh) You call my name... er der en akkompagnerende akustisk guitar. styrke: Sangstemmen er den mest fremtrædende gennem hele lydprøven. støj/klarhed: Vi kan ikke høre noget støj. Der er en god dybde og dynamik i både stemmen og guitaren. Stemmen er overvejende dyb. Langt de fleste toner fra guitaren er også meget dybe. Hver tone står tydeligt frem og det samme gælder for anslagene. Det er nemt at adskille de to signaler. 2.4.2 Subjektiv karakterisering af det rekonstruerede signal Begge komponenter er stadig nemme at adskille. Sangstemmen er blevet mindre dynamisk og specielt på ordet Call mangler der nogle overtoner. De dybeste anslag på guitaren er blevet noget vattede, mens de lidt lysere stadig er klare omend fladere. Der er en lettere forvrængning over hele lydprøven. 2.4.3 Objektive kvalitetsmål Uddata for song med standard-komprimering: input size = 438992 output size = 617267 compression ratio F = 6.981 rms-error =.2 SNR_rms = 28.384 2.4.4 Kommentarer til den psykoakustiske analyse for 5 te frame Figur 3 (a) og (b) indeholder de ønskede grafer for song. 2.5 tuba.wav Lydprøven indeholder 1,3 sekund med en tuba der spiller en tone. 11

2.5.1 Subjektiv karakterisering af lydsignalet komponenter: lydprøven udgører blot en tone fra en tuba. styrke: Vi mener signalet er svagt stigende. toneleje: Tonelejet er igen ret lavt. Det er nemt at høre de enkelte svingninger (formodentlig en beat effekt). støj/klarhed: Da der ikke er nogen støj, er den enkle tone meget klar. Vi formoder der er nogle ganske svage overtoner, der giver en stor del af dybden i lydprøven. 2.5.2 Subjektiv karakterisering af det rekonstruerede signal Der er en del støj i det rekonstruerede signal. Det lyder som om der er mest støj omkring ekstremerne af de enkelte svingninger. 2.5.3 Objektive kvalitetsmål Uddata for tuba med standard-komprimering: input size = 925696 output size = 118941 compression ratio F = 7.783 rms-error =.24 SNR_rms = 36.35 2.5.4 Kommentarer til den psykoakustiske analyse for 5 te frame Figur 4 (a) og (b) indeholder de ønskede grafer for tuba. 2.6 violin.wav Lydprøven indeholder 1,7 sekund med en violin der spiller en tone. 2.6.1 Subjektiv karakterisering af lydsignalet komponenter: Lydprøven indeholder blot en tone fra en violin styrke: Styrken er svagt stigende og ender brat. Det er meget sandsynligt at lydprøven indeholder et enkelt strøg. toneleje: Tonelejet er lavt. Det er muligt at høre de enkelte svingninger. Det virker dog som om der er mange overtoner, der i par laver beat-effekter. Vi formoder tonerne spænder over mange bånd. støj/klarhed: Signalet er meget klart. Vi kan ikke høre nogen støj. 12

2.6.2 Subjektiv karakterisering af det rekonstruerede signal Signalet er nemt genkendeligt, men meget fladere - det lyder som om alle de øverste overtoner er skåret fra. Der er desuden kommet en del knas ind. 2.6.3 Objektive kvalitetsmål Uddata for violin med standard-komprimering: input size = 12832 output size = 13119 compression ratio F = 9.216 rms-error =.37 SNR_rms = 28.995 2.6.4 Kommentarer til den psykoakustiske analyse for 5 te frame Figur 5 (a) og (b) indeholder de ønskede grafer for violin. 2.7 guitar.wav Denne lydprøve indeholder 5,78 sekunder af en skala (?) spillet på en guitar. 2.7.1 Subjektiv karakterisering af lydsignalet komponenter: Lydprøven består af en række toner fra en guitar. Evt. starten på en skala. styrke: Styrken er svagt stigende gennem hele lydprøven. toneleje: Den første del af lydprøven ligger meget lavt (dog mener vi at tonerne har en del overtoner), mens der hen imod slutningen kommer flere og flere højere toner med. støj/klarhed: Det er ikke til at høre noget støj. Det er muligt at høre de enkelte anslag. Der er desuden en stor dybde i de enkelte toner. 2.7.2 Subjektiv karakterisering af det rekonstruerede signal Den rekonstruerede lydprøve er overraskende god i forhold til de andre lydprøver. Den virker ikke helt så flad og der er ikke nær så meget forvrængning. Anslagslydene, specielt til sidst, bliver dog utydelige og til tider væk. Absolut den bedste rekonstruktion vi har hørt ved standardindstillingerne. 13

2.7.3 Objektive kvalitetsmål Uddata for guitar med standard-komprimering: input size = 483712 output size = 529869 compression ratio F = 7.77 rms-error =.17 SNR_rms = 27.151 2.7.4 Kommentarer til den psykoakustiske analyse for 5 te frame Figur 5 (a) og (b) indeholder de ønskede grafer for guitar. 3 Eksperimenter med a, b og maxbit Konteksten til a og b findes i opgaveformuleringen [2] side 4, mens konteksten til maxbit findes på side 5. For at finde betydningen af a, b og maxbit ved kompression af guitar.wav, har vi valgt at køre komprimere lydprøven ved indstillingerne vist i tabel 1. Fremgangsmåden er simpel. Først ændrer vi a, mens b og maxbits holdes konstant. Herefter gentages forsøget for de andre komponenter. Herefter vil vi forsøge med ændringer i kombinationer af de forskellige elementer (først a og b, herefter a, b og maxbit). Til sidst har vi (udfra resultaterne af de tidligere eksperimenter) forsøgt at opnå en kompressions rate på 2. 14

Tabel 1: forsøgsindstillinger ved kompression af guitar.wav ændringer i a filnavn multipel af a multipel af b c F rmse SNR_rms guitar_a..125_b.1_maxbits.1.125 1. 1 9.682.33 15.249 guitar_a..25_b.1_maxbits.1.25 1. 1 9.333.27 18.989 guitar_a..5_b.1_maxbits.1.5 1. 1 8.722.21 22.825 guitar_a..8_b.1_maxbits.1.8 1. 1 8.9.19 25.21 guitar_a.1_b.1_maxbits.1 1. 1. 1 7.77.17 27.151 guitar_a.2_b.1_maxbits.1 2. 1. 1 6.186.11 34.975 guitar_a.4_b.1_maxbits.1 4. 1. 1 4.473.6 43.983 guitar_a.8_b.1_maxbits.1 8. 1. 1 3.241.4 5.175 Tabel 2: forsøgsindstillinger ved kompression af guitar.wav ændringer i b filnavn multipel af a multipel af b c F rmse SNR_rms guitar_a.1_b..125_maxbits.1 1..125 1 9.378.2 24.31 guitar_a.1_b..25_maxbits.1 1..25 1 9.131.19 24.543 guitar_a.1_b..5_maxbits.1 1..5 1 8.659.18 25.524 guitar_a.1_b..8_maxbits.1 1..8 1 8.83.17 26.71 guitar_a.1_b.1_maxbits.1 1. 1. 1 7.77.17 27.151 guitar_a.1_b.2_maxbits.1 1. 2. 1 6.45.14 29.847 guitar_a.1_b.4_maxbits.1 1. 4. 1 4.88.11 34.722 guitar_a.1_b.8_maxbits.1 1. 8. 1 3.36.8 4.58 Tabel 2: forsøgsindstillinger ved kompression af guitar.wav ændringer i maxbit filnavn multipel af a multipel af b c F rmse SNR_rms guitar_a.1_b.1_maxbits.16 1. 1. 16 6.149.16 27.696 guitar_a.1_b.1_maxbits.1 1. 1. 1 7.77.17 27.151 guitar_a.1_b.1_maxbits.8 1. 1. 8 8.43.19 25.275 guitar_a.1_b.1_maxbits.5 1. 1. 5 9.882.47 9.189 guitar_a.1_b.1_maxbits.2 1. 1. 2 11.927.412-28.54 Tabellen fortsættes på næste side... 15

Tabel 1 (fortsat): forsøgsindstillinger ved kompression af guitar.wav udvalgte kombinationer af variationer i a og b filnavn multipel af a multipel af b c F rmse SNR_rms guitar_a..125_b..125_maxbits.1.125.125 1 11.653.46 9.649 guitar_a..5_b..5_maxbits.1.5.5 1 9.781.23 21.229 guitar_a..8_b..8_maxbits.1.8.8 1 8.482.19 24.678 guitar_a.1_b.1_maxbits.1 1. 1. 1 7.77.17 27.151 guitar_a.4_b.4_maxbits.1 4. 4. 1 3.188.5 47.26 guitar_a.2_b..25_maxbits.1 2..25 1 7.327.12 32.792 guitar_a..25_b.2_maxbits.1.25 2. 1 7.221.21 23.352 Tabel 5: forsøgsindstillinger ved kompression af guitar.wav udvalgte kombinationer af variationer i a, b og maxbit filnavn multipel af a multipel af b c F rmse SNR_rms guitar_a..125_b..125_maxbits.8.125.125 8 12.429.46 9.463 guitar_a.8_b.8_maxbits.5 8. 8. 5 4.31.45 9.978 guitar_a.8_b.8_maxbits.8 8. 8. 8 3.32.9 37.169 guitar_a.2_b..8_maxbits.5 2..8 5 8.717.46 9.656 guitar_a.2_b..25_maxbits.8 2..25 8 8.59.15 29.429 guitar_a..25_b.2_maxbits.5.25 2. 5 9.424.48 8.794 guitar_a..25_b.2_maxbits.8.25 2. 8 7.941.22 22.126 Tabel 6: forsøgsindstillinger ved kompression af guitar.wav Forsøg på at opnå en kompressionsfaktor på 2 filnavn multipel af a multipel af b c F rmse SNR_rms guitar_a._b..1_maxbits.5..1 5 13.684.69 2.6 guitar_a._b..1_maxbits.8..1 8 13.74.64 3.875 guitar_a.-.1_b..1_maxbits.8 -.1.1 8 13.54.72 1.75 guitar_a.-.2_b..1_maxbits.5 -.2.1 5 14.75.75 1.174 3..5 Ændringer i a a er den den konstant der sænker hele den globale maske. Gøres a større forventes det at lydkvalliteten stiger (da flere koefficienter så vil blive kodet), gøres a mindre (gerne negativ), hæves filtret og lydkvaliteten falder (da færre koefficienter kodes, og det nu er meget sandsynligt, at (evt. yderligere) tonale markører kommer under grænsen). Vi har valgt at teste betydningen af a i intervallet.1-8. Resultatet af målingerne kan ses i Tabel 1. For at tydeligøre effekten af en højere og lavere a, har vi også valgt, at plotte resultatet i figur 6. Både kvadratmiddelfejl og kompressoinsfaktor ser ud til at følge den samme funktion, der som forventet giver dårligere kompressionsfaktor, men mindre kvadratmiddelfejl, des højrere a bliver. Signal-støjforholdet har følger den modsatte udvilking, der spænder fra ca 15 db til ca 5 db. Vores subjektive vurdering er at den rekonstruerede lydprøve er næsten uadskilleig fra originalen, når a bliver fordoblet eller større. Signalet er dog let genkendeligt og ret klart, 16

ved alle multipellerne af a. Signalet er dog ret støjfyldt og fyldt med "bobler"ved de laveste multipeller. 3..6 Ændringer i b b er den konstant der bestemmer hvor meget den globale grænse sænkes i et givent bånd. Des større b er, desto lavere bliver grænsen (bestemt udfra hvilket bånd b ligger i. Som for a har vil valgt at plotte dataen i en figur: 7. Disse grafer er noget fladere end dem for a, men følger ellers samme mønster. Desuden er for kvadratmiddelfejlen væsentligt mindre end, for den tilsvarende faktor for a, hvilket betyder at det objektive kvallitetsmål for en given (forholdsvis høj) kompreesionsfaktor, bedre opnås ved at sænke b end ved at sænkea. Udsvinget i signal-støjforholdet er også væsentligt mindre (mellem ca 25 db og ca 4 db), hvilket kunne tyde på, at ikke kan betale sig at hæve b i forhold til a i tilfælde hvor man ønsker en god rekonstruktion på bekostning af en dårlig kompressionsrate. Vores subjektive vurdering er at den rekonstuerede lydprøve allerede er næsten uadskillelig fra originalen, når b mulitpliceres med.25! Desuden er det lavere testresultat (b multipliceret med.125) langt bedre end ved a multipliceret med det samme - der er ingen af "boble"lydene. Vi kan ikke hører forskel mellem a >= 2 og b >=.5. 3..7 Ændringer i bit Som for a og b har vi plottet værdierne fra tabel 1 i en figur: 8. Det er ved kodning med maxbit = 2, lykkeds os at nå op, på den hidtil højeste kompressions faktor på ca. 12. Kompressionsfaktoren falder næsten linært fra 12 ved maxbit = 2 til 6 ved maxbit = 16. Kvadratmiddelfejlen fra maxbit = 2 til maxbit = 5 er dog himmelhøj. fra maxbit = 8 og frem er den meget lille og næsten uforanderlig. Samme billede af lydkvaliteten viser sig når man betragter signal-støjforholdet. Når maxbit >= 8 er det forholdsvist pænt (i midten af tyverne), men derunder falder det dræstisk. Konklusionen er at, man ikke skal benytte sig af mindre end maxbit = 8, med mindre en meget ringe rekonstruktion er acceptabel. Vi kan ikke høre forskel på den rekonstruerede lydprøve for maxbit = 8, 1 og 16. For maxbit = 5 er der en del støj og forvrængning og ved maxbti = 2 kan lydprøven kun lige genkendes for støj. 3..8 Ændringer i a, b og maxbit De resterende tests er hovedsageligset afviklet, for at finde ud af noget mere om vægtningen af a, b og maxbit. Da a blot hæver eller sænker grænsen fra elementerne påvirket af b, forventede vi en vis overlapning i deres betydning. Maxbit er sat til henholdsvis 8 (lavt, men acceptabel kvalitet) og 5 (lav og dårlig kvalitet). Det er tydeligt, hvis man f.eks betragter lydprøven med a = b =.125 og maxbit = 8, der "kun"har en kompressionsratio på ca 12.5, at der er en vis "overlapning"af de to konstanters betydning. Dette kan også ses i den anden ende af skalaen, hvor f.eks lydprøven med a = b = 8 og maxbit = 8, er kommet ned på kompressionsfaktor på 3. Vi mener at 17

betydningen a og b har nogenludne samme betydning, når det drejer sig om kompressionsration mod lydkvalitet. Effekten af at ændre maxbit er størst når, lydprøven med a og b er sat til en høj kvalitet. Er a og b sat tilstrækkeligt lavt, kan maxbit også sækes uden at det har den store efffekt på hverken kompressionsratio eller lydkvalitet. Det har ikke været os muligt at finde en indstilling hvor vi kunne komme nær på en kompressionsfaktor på 2, mens signalet stadigvæk var subjektivt genkendeligt.a = -.2,b =.1 og maxbit = 5, der giver en kompressionsfaktor på lige over 14, er vores bedste bud. 18

A Plots vdr. eksperimentel validering Dette bilag indeholder for hver lydprøve en oversigt over komponenterne i vores implementation af den psykoakustiske model, samt en sammenligning af det oprindelige signal og det rekonstruerede. For plots af den psykoakustiske model (a) gælder følgende koder: Tonale markører er afmærket med et x. Støjarkører er afmærket med et o. Den absolutte høregrænse ATH er afmærket med en stiplet sort linie. Koefficienternes absolute værdi er afmærket med en prikket sort linie. Den beregnede globale høregrænse er afmærket med en solid rød linie. For plots til sammenligning af det oprindelige og det rekonstruerede lydsignal (b) gælder følgende koder: Det originale signal er afmærket med en solid blå linie. Det rekonstruerede signal er afmærket med en solid rød linie. guitar hvor a = a*1 og b = b*1 og maxbits = 1 12.6 1.4 8.2 SPL (db) 6 4.2.4 2.6.8 2 5 1 15 2 25 Bark (z) (a) Psykoakustisk model.1 12 13 14 15 16 17 18 (b) Oprindeligt og rekonstruerede lydsignal Figur 1: Begge figurer dækker 5 te frame i guitar 19

pop hvor a = a*1 og b = b*1 og maxbits = 1 12.15 1.1 8.5 SPL (db) 6 4.5.1 2.15.2 2 5 1 15 2 25 Bark (z) (a) Psykoakustisk model.25 12 13 14 15 16 17 18 (b) Oprindeligt og rekonstruerede lydsignal Figur 2: Begge figurer dækker 5 te frame i pop song hvor a = a*1 og b = b*1 og maxbits = 1 12.15 1.1 8.5 SPL (db) 6 4.5 2.1.15 2 5 1 15 2 25 Bark (z) (a) Psykoakustisk model.2 12 13 14 15 16 17 18 (b) Oprindeligt og rekonstruerede lydsignal Figur 3: Begge figurer dækker 5 te frame i song 2

tuba hvor a = a*1 og b = b*1 og maxbits = 1 12.6 1.4 8.2 SPL (db) 6 4.2.4 2.6.8 2 5 1 15 2 25 Bark (z) (a) Psykoakustisk model.1 12 13 14 15 16 17 18 (b) Oprindeligt og rekonstruerede lydsignal Figur 4: Begge figurer dækker 5 te frame i tuba.2 12.15 1.1 8.5 SPL (db) 6 4 2.5.1.15.2 2 5 1 15 2 25 Bark (z) (a) Psykoakustisk model.25 12 13 14 15 16 17 18 (b) Oprindeligt og rekonstruerede lydsignal Figur 5: Begge figurer dækker 5 te frame i violin 21

B Plots vdr. eksperiemnter med a, b og maxbit 22

1 2 3 4 5 6 7 8 1.35 5 9 8.3 45 4 7.25 35 kompressionsfaktor (F) 6 5 4 Kvadratmiddelfejl.2.15 db 3 25 2 3.1 15 2 1 1.5 5 multipel af a 1 2 3 4 5 6 7 8 multipel af a 1 2 3 4 5 6 7 8 multipel af a (a) Kompressionsfaktor (b) Kvadratmiddelfejl (c) Signal til støj Figur 6: Ændringer i a 1.2 4 9 8.18.16 35 7.14 3 Kompressionsfaktor (F) 6 5 4 Kvadratmiddelfejl.12.1.8 db 25 2 15 3.6 1 2.4 1.2 5 1 2 3 4 5 6 7 8 multipel af b 1 2 3 4 5 6 7 8 multipel af b 1 2 3 4 5 6 7 8 multipel af b (a) Kompressionsfaktor (b) Kvadratmiddelfejl (c) Signal til støj Figur 7: Ændringer i b 23

2 4 6 8 1 12 14 16 12.45 3.4 1 2.35 8.3 1 Kompressionsfaktor 6 Kvadratmiddelfejl.25.2 db 4.15 1.1 2 2.5 maxbit 2 4 6 8 1 12 14 16 maxbit 3 2 4 6 8 1 12 14 16 maxbit (a) Kompressionsfaktor (b) Kvadratmiddelfejl (c) Signal til støj Figur 8: Ændringer i maxbit 24

Litteratur [1] S. I. Olsen. Kvalitetsvurdering ved kompression. Udigvet på DIKU i forbindelse med kurset. [2] S.I.Olsen. Godkendelsesopgave g3 : Scod, februar 21. [3] Andreas Spanias Ted Painter. A review of algorithms for perceptual coding of digital audio signals. Technical report, Department of electrical engineering, Telecommunications research center, Arizona state university, 1998. 25