Velkommen til MMK. S. Olsen (DIKU) Multimediekompression Forelæsning 1 1 / 42



Relaterede dokumenter
I dag. Kodning af lyd. Psykoakustiske modeller G.726. Vocoders. S. Olsen (DIKU) Multimediekompression Forelæsning 10 1 / 38

Signalbehandling og matematik 1 (Tidsdiskrete signaler og systemer)

Sampling og aliasing. Datalogisk Institut Københavns Universitet. Kapitel 4 c Jens D. Andersen

DSP Digitale signal behandling Lkaa

Sampling. Reguleringsteknik for Grundfos Lektion 6. Jan Bendtsen

wwwdk Digital lydredigering på computeren grundlæggende begreber

I dag skal vi tale om

Telefoni før og nu. Telefoni og Telefoni begreber

Telefoni og Telefoni begreber

Mellem mennesker Ny Prisma Fysik og kemi 9 - kapitel 9 Skole: Navn: Klasse:

IP Telefoni II. IP Telefoni introduktion II. TDC IP telefoni Scale

Medicinsk billeddannelse

Medicinsk billeddannelse

Modulationer i trådløs kommunikation

Det fysiske lag Niels Christian Juul

4. Semesterprojekt System Arkitektur. MyP3000 I4PRJ4 E2004

Figur 0.1: To kredsløb hvor en operationsforstærker bliver brugt som komparator. [1]

DM507 Algoritmer og datastrukturer

Velkommen til. EDR Frederikssund Afdelings Almen elektronik kursus. Steen Gruby OZ9ZI

DM507 Algoritmer og datastrukturer

AVR MP Ingeniørhøjskolen i Århus Michael Kaalund

Spektrumrepræsentation

Rapport. Undersøgelse af Dantale DVD i forhold til CD. Udført for Erik Kjærbøl, Bispebjerg hospital og Jens Jørgen Rasmussen, Slagelse sygehus

Vores logaritmiske sanser

DM507 Algoritmer og datastrukturer

Mobiltelefonen som videokamera i undervisningen. Steen Grønbæk Mercantec Viborg

Farver og repræsentation af farvebilleder

Introduktion til Digital Audio Broadcasting

Wavelet Analyse. Arne Jensen Institut for Matematiske Fag Aalborg Universitet

Indholdsfortegnelse. Vigtig information til nytilsluttede Fejlfindings tips Beskrivelse af analogt og digitalt TV Kontakt information

WSPR Introduktion. WSJT (Weak Signal Propagation Reporter) Developed by Joe Taylor K1JT

DM507 Algoritmer og datastrukturer

Indholdsfortegnelse. Vigtig information til nytilsluttede. Fejlfindings tips. Beskrivelse af analogt og digitalt TV. Kontakt information.

Allan Nelsson - OZ5XN. Licenced since 1970

Nedenfor er tegnet svingningsmønsteret for to sinus-toner med frekvensen 440 og 443 Hz:

Elevforsøg i 10. klasse Lyd

Lyd og lydkvalitet på fiber og kabel TV

Introduktion til DM507

Grådige algoritmer. Et algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer.

Adobe Premiere Pro 2.0

Testsignaler til kontrol af en målekæde

Projekt Lime SDR Mini. Jørgen Kragh, OZ7TA EDR Birkerød januar 2019

CANSAT & ARDUINO step by step

COMFORT DIGISYSTEM. Bedst på arbejde

Soolai BRUGERVEJLEDNING SPL-32R / SPL-32T

IP Telefoni En naturlig udvikling?

Den menneskelige cochlea

Eksamen i Signalbehandling og matematik

Signalbehandling 1. Compressorer, gates, digitale filtre. Litteratur: Roads s

Lyd & multimedier Side 1 af 11

En krystalstabil oscillator til dit næste projekt

Software - manipulation af data

Enes Kücükavci Roskilde Tekniske Gymnasium Mathias Turac Informationsteknolog B Vejleder: Karl Bjranasson Programmering C

Digitalt TV og Digital modtager

Lydteori. Lyd er ikke stråler, som vi vil se i nogle slides i dag.

Grundlæggende lydtekniker kursus

Video i undervisningen - Planlægning, videooptagelse, redigering, publicering og QR. Video

Digitale multimediesøjler og informationsformidling

2G 3G 4G Kategori (dækning) RXLev (dbm)

Hvad betyder digitaliseringen krav og muligheder

Prøveeksamen nr. 2: Signalbehandling og matematik

ANALYSE AF WEBSTEDET

Streame fra Winamp til Dreambox/pc på netværk.

EDR Frederikssund Afdelings Almen elektronik kursus

DM-44TE 45 sek. Anti Shock bærbar CD-afspiller

Den ideelle operationsforstærker.

Ren versus ligesvævende stemning

Transkript:

Velkommen til MMK Lærere: Søren Olsen, Peter Johansen, Morten Engell-Nørregård, Eugenio Iglesias Lærebog: Ze-Nian Li, Mark S. Drew: Fundamentals of Multimedia (FoM), Pearson Education 2004, samt en række mindre noter og artikler [se Web-side] Kompresion af Tekst, Fax, Billede, Lyd, Video S. Olsen (DIKU) Multimediekompression Forelæsning 1 1 / 42

Forelæsningsoversigt DF emne FoM 1-3 Repræsentation af lyd, billeder, og video 3-6 3-4 MATLAB, filtrering, signalbehandling 5-6 Informationsteori og tekstkompression LZW 7 7-8 Kodningsteknikker 6,8 8-9 Kompression af billeder JPEG 8,9 10-11 Kompression af lyd MP 13,14 12-13 Kompression af video MPEG 10-12 14 Spørgetime ifm. rapportopgave S. Olsen (DIKU) Multimediekompression Forelæsning 1 2 / 42

Øvelser Der bliver kun 1 øvelseshold: Torsdag 13-15 i Auditorium Store UP1 med instsruktor Morten Engell-Nørregård (mort@diku.dk) Find øvelsesopgaver på webside. Opgaverne vil i stort omfang forberede til den karaktergivende opgave. Træn dig i MATLAB. Det kan være for sent når først K-opgaven er stillet. S. Olsen (DIKU) Multimediekompression Forelæsning 1 3 / 42

Ekstraforelæsninger Som supplement til de ordinære forelæsninger holder Eugenio Iglesias tre ekstraforelæsninger. Fredag d. 25. Maj: Speech signal coding Fredag d. 1. Juni: Wavelets and JPEG2000 Fredag d. 8. Juni: Medical image compression, storage and retrieval, DICOM, PACS Foredragene holdes kl. 13-15 i Auditurium Lille UP1. S. Olsen (DIKU) Multimediekompression Forelæsning 1 4 / 42

K-opgave Stilles Mandag d. 7. juni Afleveres Torsdag d. 28. juni Omhandler: Implementation af en metode til multimediekompression i MATLAB og vurdering af metode. S. Olsen (DIKU) Multimediekompression Forelæsning 1 5 / 42

Hvorfor komprimere? Vi ønsker at udveksle store multimediedokumenter, men vil ikke vente i lang tid på transmisionen. Vi ønsker at udnytte en transmissionskanal bedst muligt. Vi ønsker at lagre store dokumenter, f.eks et musikstykke eller en videofilm på et medie med begrænset lagringskapacitet. Ønskerne/kravene til hvad vil udveksle/lagre stiger hurtigere end ydeevnen af den teknologi som er til rådighed. S. Olsen (DIKU) Multimediekompression Forelæsning 1 6 / 42

Anvendelser Udveksling af tekst, billeder og lyd via web. Digital video på DVD. MP3 musik, militær talekodning. Telekonferencer. Digital radio og TV over net. Video on demand, Interaktiv TV. Interaktive multibrugerspil. Transmission og lagring af ultra store billedmængder fra satellitter. S. Olsen (DIKU) Multimediekompression Forelæsning 1 7 / 42

Matematik og kodning Grundlæggende er kodning og kompression matematiske anvendelser. De faktisk benyttede metoder udnytter ofte særdeles avanceret matematik. Jeres matematikniveau er ikke højt. Konklussion: Undervisningen vil ikke gå i dybden I bliver ikke eksperter i kodning på dette kursus I vil få en bred all-round viden, som måske kan motivere tilegnelse af den nyttige matematik, der er nødvendig hvis i senere vil specialisere jer. S. Olsen (DIKU) Multimediekompression Forelæsning 1 8 / 42

Forudsætninger Vi forventer at har bestået Mat.Intro eller MoB Lineær Algebra Objektorienteret programmering S. Olsen (DIKU) Multimediekompression Forelæsning 1 9 / 42

Er der nogen spørgsmål? S. Olsen (DIKU) Multimediekompression Forelæsning 1 10 / 42

Multimedie dimensioner Dimension 1 2 3 medietype Tekst Billede Video Musik Fax De forskellige medietyper har forskellige egenskaber og skal derfor komprimeres forskelligt S. Olsen (DIKU) Multimediekompression Forelæsning 1 11 / 42

Tabsfri contra tabsgivende kompression Ved kompression af tekst samt ved lagring af visse kritiske data er det vigtigt at dokumentet kan rekonstrueres eksakt. Dette begrænser den opnåelige kompression. Ved kompression af billeder, lyd og video ønskes ofte en høj kompressionsfaktor (ofte > 10). Den vigtigste teknik er kun at kode det, som vi kan se/høre. S. Olsen (DIKU) Multimediekompression Forelæsning 1 12 / 42

Transmisionshastigheder Hastighed måles i bit pr. sekund (kbps, Mbps): Traditionelt telefonnet (Modem): 56 eller 64 kbps. Fjernsyns netværk (kabelnet): 1-50 Mbps Integrerede tjenester (ISDN, ADSL): n 64 kbps eller 2 Mbps. DVD-ROM: 3.9 GB (giga byte) S. Olsen (DIKU) Multimediekompression Forelæsning 1 13 / 42

En digital video i PAL 4:4:2-formatet fylder 829.44 kb pr. frame. Med 25 frames/sek. fås behov for lagring af 22.736 MB/sek. På en DVD-ROM med 3.9 GB er der, uden kompression, plads til ca. 172 sek. eller knapt 3 minutter. Et CD-musikstykke i stereo fylder ved 44.1 kilo sampels pr. sekund (ksps) og 16 bps 1.4112 Mbps. 74 minutter musik vil fylde godt 783 MB. Hvis musikstykket skulle høres direkte over telefonnettet via et 56 kbps modem, ville det kræve en kompression på F = 1.4112 Mbps 56 kbps = 1411 56 25 S. Olsen (DIKU) Multimediekompression Forelæsning 1 14 / 42

Et 8 Mpixel digitalkamera tager billeder, der i RAW-formatet fylder 8 MB svarende til 64 billeder ved et larger på 512 MB. Ved lav/middel/høj JPEG-kompression af billedet vil dette typisk fylde omkring 2 MB/1 MB/512 kb svarende til at der kan lagres 256/512/1024 billeder. S. Olsen (DIKU) Multimediekompression Forelæsning 1 15 / 42

Multimedie repræsentation Repræsentation Filformat Eksempel: Et lydsignal kan repræsenteres digitalt ved sampling af det analoge signal med en vis frekvens og kvantificering til et vist antal bit per sampel (PCM =Pulse Code Modulation). Et filformat for en lydsignal vil detalieret specificere meget andet information (fx. ejerforhold, tidspunkt etc) samt hvorledes de samplede data er organiseret i filen. Kurset omhandler ikke filformater. S. Olsen (DIKU) Multimediekompression Forelæsning 1 16 / 42

Samplede data I modsætning til tekst (f.eks. i ASCII format) består lyd, billeder og video af samplede data. For lyd samples lydtrykket som funktion af tiden med en vis samplingfrekvens. For billeder samples lysstyrken som funktion af de to spatiale koordinater. Ofte er samplingfrekvensen forskellig for de to retninger. For video samples i tre dimensioner: To spatiale koordinater og en temporal koordinat. S. Olsen (DIKU) Multimediekompression Forelæsning 1 17 / 42

Analog til digital konvertering Ved digitalisering skal samplingfrekvensen (antal sampels) i alle dimensioner specificeres. Hver sampel skal kvantificeres til en diskret værdi der kan rummes inden for et specificeret antal bit. Såvel ved samplingen som ved kvantificeringen tabes (generelt) information. Ved samplingen kan der opstå aliasing, og ved kvantificeringen introduceres en kvantificeringsfejl. For at forstå disse emner er det nødvendigt at forstå hvorledes en funktion (et lydsignal) kan repræsenteres i frekvensområdet. S. Olsen (DIKU) Multimediekompression Forelæsning 1 18 / 42

Frekvensrepræsentation En lyd består (typisk) af dybe såvel som høje toner. En ren tone kan genereres ved en sinus-svingning med en bestemt frekvens. En vilkårlig (sammensat) tone kan frembriges ved superponering af vægtede rene toner med forskellig frekvens. Tilsvarende kan enhver funktion beskrives ved en linearkombination af sinus- og cosinus-svingninger. f(x) = = a i sin(ω i x + φ i ) i=1 b i sin(ω i x) + i=1 i=1 c i cos(ω i x) S. Olsen (DIKU) Multimediekompression Forelæsning 1 19 / 42

Rene svingninger med forskellig frekvens samt vægtet sum af disse. 14 12 10 8 6 4 2 0 0 50 100 150 200 250 300 350 400 450 500 25 20 15 10 5 0 5 0 50 100 150 200 250 300 350 400 450 500 S. Olsen (DIKU) Multimediekompression Forelæsning 1 20 / 42

For lyd er der grænser for hvor dybe og hvor høje toner som mennesker kan høre. Antallet ω i af svingninger pr. sekund kaldes frekvensen og måles i Hz. Unge mennesker kan ofte høre lyde i intervallet 20Hz < ω i < 20.000Hz. Visse lyde indeholder kun toner med en frekvens < ω max. Man siger at lyden er båndbegrænset med båndbredde ω max. Man kan vise at det oprindelige analoge signal kan rekonstrueres eksakt ud fra sampels af signalet hvis dette er samplet med en frekvens ω s, der er mindst 2ω max. S. Olsen (DIKU) Multimediekompression Forelæsning 1 21 / 42

Hvis et signal samples for sjældent (med for stor samplingafstand): - Kan det oprindelige signal ikke rekonstrueres eksakt. - Vil der kunne opstå aliasing. Aliasing viser sig som en misfortolkning af en højfrekvent svingning som en falsk svingning med lavere frekvens. Kuren mod aliasing er at anvende et anti-aliasing (lavpas filter). Herved bortfiltreres signalinformation med frekvenser større end ω s /2. S. Olsen (DIKU) Multimediekompression Forelæsning 1 22 / 42

Aliasing: 6kHz real signal 2kHz alias signal Signal amplitude 0.5 Time, ms 8ksps S. Olsen (DIKU) Multimediekompression Forelæsning 1 23 / 42

Lav-pas filtrering Et lav-pas filter lader de lave frekvenser (i musik: de dybe toner) passerer og fjerner/dæmper de høje frekvenser. Eksempel: Ved lav-pas filtrering af et talesignal med højfrekvent susen (støj) kan denne fjernes. Der findes også høj-pas filtre hhv. bånd-pas filtre der lader de høje frekvenser hhv. et bånd af frekvenser passerer. Frekvensopdeling af et signal i bånd benyttes intensivt i lydkodere som fx. MP3. S. Olsen (DIKU) Multimediekompression Forelæsning 1 24 / 42

Eksempel: Et trompet frembringer lyde med frekvenser over 20 khz. For at undgå aliasing (falske lave frekvenser) i en digital optagelse af et trompetstykke må vi lav-pas filtrere lydsignalet INDEN digitalisering. S. Olsen (DIKU) Multimediekompression Forelæsning 1 25 / 42

Nyquist frekvens Hvis et signal samples for sjældent kan de høje frekvenser ikke gendannes og aliasing opstår. Et signal er båndbegrænset med båndbredde ω max (Nyquist frekvensen) hvis det ikke indeholder frekvenser over ω max Samplingsætningen siger at signalet kan gendannes korrekt hvis det samples mindst så ofte som 2 ω max. Dette betyder at samplingafstanden x < 1 2 ω max S. Olsen (DIKU) Multimediekompression Forelæsning 1 26 / 42

Ikke-reversibel kompression Det første trin i en tabsgivende kompresssionsmetode er ofte at transformere data til en repræsentation, som er hensigtsmæssig. Ved transformation af et lydsignal fra tidsdomæne til frekvensdomæne. kan de frekvenser som mennesker ikke kan høre, filtreres bort. Ved transformation af et billede til frekvensdomænet, kan man bortfiltrere de svingninger i intensitetsfunktionen, som ikke kan registreres eller som er uvæsentlige for perceptionen. S. Olsen (DIKU) Multimediekompression Forelæsning 1 27 / 42

Det andet trin består ofte i en kvantificering af de transformerede og filtrerede data samt en organisering af disse i en sekvens af symboler. Antag at et signal f(x) er transformeret til en koefficientfunktion c(x) og at hver koefficient kvantificeres med en fast kvantstørrelse til en heltallig størrelse: ( ) c(x) q(x) = round Da består symbolfølgen af: [q(1), q(2),..., q(n)]. S. Olsen (DIKU) Multimediekompression Forelæsning 1 28 / 42

Tredie trin i kompressionen er at indkode symbolfølgen reversibelt. Metoderne hertil er ofte de samme som benyttes i tabsfri kodning. Grundideen er at symboler, der forekommer meget ofte skal indkodes ved en kort bitfølge, hvorimod sjældent forekommende symboler kan indkodes ved en længere bitfølge. Ved brug af variabel længde bitkode (VLC) mindskes den gennemsnitlige størrelse af indkodningen. Eksempelvis forekommer bogstaverne e, r, og n hyppigt i dansk tekst hvorimod bogstaverne z og q forekommer meget sjældent. S. Olsen (DIKU) Multimediekompression Forelæsning 1 29 / 42

Eksempel: symbol hyppighed direkte kodning VLC længde w 0 0.02 000 00000 0.10 w 1 0.03 001 00001 0.15 w 2 0.05 010 0001 0.20 w 3 0.05 011 0010 0.20 w 4 0.10 100 0011 0.40 w 5 0.15 101 010 0.45 w 6 0.20 110 011 0.60 w 7 0.40 111 1 0.40 1.00 3 2.50 S. Olsen (DIKU) Multimediekompression Forelæsning 1 30 / 42

Codec = Encoder + Decoder En encoder (koder/indkoder) består af (minimum) 3 elementer: Et lav-pas (anti-aliasing) filter tilpasset samplingfrekvensen En sampler (sample and hold), der aftaster signalet ækvidistant En analog-til-digital konvertering (ADC), der kvantificerer de analogt samplede værdier til digitale kodeord. S. Olsen (DIKU) Multimediekompression Forelæsning 1 31 / 42

(a) (A) (B) (D) (E) Analog input signal o /p Sample and hold Quantizer Digitized codewords f o /p = output Bandlimiting filter Sampling clock (C) Analog-to-digital converter Signal encoder (b) (A) Time, t (B) t (C) t (D) t (E) 0 000 0 100 0 111 0 011 1 100 1 101 1 011 0 101 t S. Olsen (DIKU) Multimediekompression Forelæsning 1 32 / 42

Dekodning En dekoder består af (mindst) 2 elementer En digital-til-analog konvertering (DAC), der omsætter hvert digitalt kodeord til en analog størrelse. Et lav-pas-filter (rekonstruktionsfilter), der eliminerer de høje frekvenser som (kunstigt) er tilføjet signalet ved kvantificering Som regel er de lav-pas filtre, der er brugt i encoder og decoder, ens. S. Olsen (DIKU) Multimediekompression Forelæsning 1 33 / 42

(a) (A) (B) (C) Digitized codewords DAC f Analog output signal (b) (A) Signal decoder Low-pass filter 100 000 001 010 001 000 101 111 110 000 Time, t (B) (C) 011 010 001 000 100 101 110 111 t Filtered analog output signal t S. Olsen (DIKU) Multimediekompression Forelæsning 1 34 / 42

Lyd Lyd optages ved at sample lydtrykket ækvidistant. Samplingfrekvensen afhænger af anvendelsen. For musik benyttes ofte 44.100 sps (sampels pr. sekund). For tale samples sjældnere, fx. 20 ksps. Dette svarer til båndbredder på ca. 22kHz og 10kHz. For at undgå aliasing foretages lavpas-filtrering ALTID INDEN samplingen. Efter sampling kvantificeres de enkelte samples. For musik benyttes ofte 16 bit/sampel. For tale benyttes som regel en grovere kvantificering, fx. 12 bit/sampel. S. Olsen (DIKU) Multimediekompression Forelæsning 1 35 / 42

Lydstyrke En lyds styrke måles ofte i db (decibels): Absolut høregrænse Stille rum Normal tale Høj radio Standsende tog Smertegrænse 0 db 20 db 60 db 80 db 100 db 140 db S. Olsen (DIKU) Multimediekompression Forelæsning 1 36 / 42

Signal-Støjforhold (SNR) Kvaliteten af et signal måles ofte ved forholdet mellem signalstyrken og styrken af støjen i signalet. Sædvanligvis angives forholdet i db: SNR = 10 log 10 ( V max 2 V støj 2 ) = 20 log 10 ( V max V støj ) db Hvis Vmax V støj = 10 n vil SNR = 20n db. S. Olsen (DIKU) Multimediekompression Forelæsning 1 37 / 42

SQNR Helt svarende til SNR-forholdet defineres Signal-til-kvantificerings-støj forholdet ud fra forholdet mellem styrken af maksimale signal og den maksimale kvantificeringsstøj. V max SQNR = 20 log 10 ( V quan-noise ) db Hvis vi kvantificere området [ V max : V max ] uniformt ved N bit svarende til en kvantstørrelse på V max /2 N 1 fås: SQNR = 20 log 10 ( 2N 1 ) = 20 log(2)n 6N db 0.5 Hver ekstra bit vil derfor svare til et forøget SQNR-forhold på ca. 6 db. S. Olsen (DIKU) Multimediekompression Forelæsning 1 38 / 42

Lydkodning Som vi skal se senere kan kompression ske ved: At sample sjældnere At kvantificere hårdere At udnytte at øret ikke er lige følsomt som fkt. af frekvens og lydstyrke mv (psykoakustisk model). Dette kræver opdeling af signalet i frekvensbånd. At udnytte prediktion, dvs. at værdien af en sample sjældent afviger radikalt fra den/de forrige sampels. S. Olsen (DIKU) Multimediekompression Forelæsning 1 39 / 42

S. Olsen (DIKU) = Hearing sensitivity Multimediekompression of the human ear Forelæsning 1 40 / 42 (a) Signal amplitude relative to the minimum sensitivity level of the ear (db) 100 80 60 40 20 B A 0 0.01 0.02 0.05 0.1 0.2 0.5 1.0 2.0 5.0 10 20 Frequency (khz) (b) 100 Relative signal amplitude level (db) 80 60 40 20 B A 0 0.01 0.02 0.05 0.1 0.2 0.5 1.0 2.0 5.0 10 20 Frequency (khz)

Næste gang Kvantificering Farver og repræsentation af disse. Billeder, fax, og skannere. Fjernsyn, og video S. Olsen (DIKU) Multimediekompression Forelæsning 1 41 / 42

Slut på denne forelæsning Er der nogen spørgsmål? S. Olsen (DIKU) Multimediekompression Forelæsning 1 42 / 42