Multimedier Modul 4 1.1:1 Multimedieteknologi Repræsentation og kompression Modul på 8 uger [10 DF, 3 ugers godkendelsesopgave] Lærebog: Halsall, Multimedia communications, Addison-Wesley 2001, samt en række mindre noter og artikler [se Web-side] Kompresion af Tekst, Fax, Billede, Lyd, Video
Multimedier Modul 4 1.1:2 Forelæsningsoversigt DF emne Halsall 1-3 Repræsentation af Lyd, tekst, grafik, billeder, og video 2 4 Kodning generelt og tekstkodning 3 5 Fejldetektion og kryptering 6, 13 6-7 Kompression af fax og billeder 3 8-9 Kompression af lyd 4 9-10 Kompression af video 4
Multimedier Modul 4 1.1:3 Forelæsninger og øvelser Forelæsninger i uge 6-10 hver tirsdag 9-11 og hver fredag 10-12 i Auditorium Store UP1. Øvelser : Første gang mandag d. 8/2 Hold 1 Onsdag 9-12 N004 Mikkel Hold 2 Fredag 12-15 N026 Thomas Hold 3 Tirsdag 11-14 N022 Christian Hold 4 Mandag 13-16 N004 Morten Find øvelsesopgaver til hele perioden på web-side. Nogle opgaver er fra Halsall, andre fra Opgavesamling (se web).
Multimedier Modul 4 1.1:4 G3-opgave Stilles Fredag d. 5. marts Afleveres Fredag d. 26. marts Omhandler: Implementation af en metode til multimedie kompression i MATLAB og vurdering af metode.
Multimedier Modul 4 1.1:5 Matematik og kodning Grundlæggende er kodning og kompression matematiske anvendelser. De faktisk benyttede metoder udnytter ofte særdeles avanceret matematik. Jeres matematikniveau er lavt. Konklussion: Undervisningen vil ikke gå i dybden I bliver ikke eksperter i kodning på dette kursus I vil få en bred all-round viden, som måske kan motivere tilegnelse af den nyttige matematik, der er nødvendig hvis i senere vil specialisere jer.
Multimedier Modul 4 1.1:6 Hvorfor komprimere? Vi ønsker at udveksle multimediedokumenter, f.eks over telefonnet, og ønsker ikke at vente i lang tid på transmisionen af dokumentet. Vi ønsker at lagre store dokumenter, f.eks et musikstykke eller en videofilm på et medie med begrænset lagringskapacitet. Ønskerne/kravene til hvad vil udveksle/lagre stiger hurtigere end ydeevnen af den teknologi som er til rådighed.
Multimedier Modul 4 1.1:7 Anvendelser Udveksling af tekst, billeder og lyd via web. Telekonferencer Digital radio og TV over net. Video on demand, Interaktiv TV. Digital video på fx. DVD. Spil (især interaktive multibruger). Optagelse, redigering etc. af dokumenter [studie-kvalitet].
Multimedier Modul 4 1.1:8 Multimedie dimensioner Dimension 1 2 3 medietype Tekst Billede Video Musik Fax De forskellige medietyper har forskellige egenskaber og skal derfor komprimeres forskelligt
Multimedier Modul 4 1.1:9 Transmisionshastigheder Hastighed måles i bit pr. sekund (kbps, Mbps): Traditionelt telefonnet (Modem): 56 eller 64 kbps. Fjernsyns netværk (kabelnet): 1-50 Mbps Integrerede tjenester (ISDN, ADSL): n 64 kbps eller 2 Mbps. DVD-ROM: 3.9 GB (giga byte)
Multimedier Modul 4 1.1:10 Eksempel En digital video i PAL 4:4:2-formatet fylder 829.44 kb pr. frame. Med 50 frames/sek. fås behov for lagring af 41.472 MB/sek. På en DVD-ROM med 3.9 GB er der, uden kompression, plads til ca. 94 sek. eller ca. 1.5 minut. Et CD-musikstykke i stereo fylder (ved 44.1 ksps og 16 bps) 1.4112 Mbps. 74 minutter musik vil fylde godt 783 MB. Hvis musikstykket skulle høres direkte over telefonnettet via et 56 kbps modem, ville det kræve en kompression på 1411 kbps/56 kbps eller ca. 25.
Multimedier Modul 4 1.1:11 Multimedie repræsentation Repræsentation Filformat Eksempel: Et lydsignal kan repræsenteres digitalt ved sampling af det analoge signal med en vis frekvens og kvantificering til et vist antal bit per sampel (PCM =Pulse Code Modulation). Et filformat for en lydsignal vil detalieret specificere meget andet information (fx. ejerforhold, tidspunkt etc) samt hvorledes de samplede data er organiseret i filen. Modulet omhandler ikke filformater.
Multimedier Modul 4 1.1:12 Fejldetekterende koder Kurset berører også hvordan der kan tilføjes kontrolbit til en bitsekvens således at fejl opstået under transmission eller lagring kan detekteres (og i visse tilfælde rettes). Eksempelvis vil tilføjelse af en paritetsbit til f.eks. et 7-bits ASCII-tegn give mulighed for detektion af op til 1 bitfejl.
Multimedier Modul 4 1.1:13 Kryptering Modulet introducerer meget let til hvorledes utilsigtet adgang til et dokument kan besværliggøres (i praksis umuliggøres) ved kryptering. En enkel (og let knækbar) metode er at rækkefølgeombytte symbolerne i symbolfølgen og/eller at erstatte hvert symbol med et andet. Dette sker efter en nærmere fastsat opskrift, der kan udledes fra en krypteringsnøgle. Vi skal også se en mere moderne metode: RSA-algoritmen, som bl.a. kendes fra PGP - Pretty Good Privacy.
Multimedier Modul 4 1.1:14 Analog til digital konvertering Lyd, Billeder og video optages (ofte uden lagring) med analogt udstyr. Ved digitalisering skal samplingfrekvensen (antal sampels) i alle dimensioner specificeres. Hver sampel skal kvantificeres til diskret værdi der kan rummes inden for et specificeret antal bit.
Multimedier Modul 4 1.1:15 Codec = Encoder + Decoder En encoder (koder/indkoder) består af (minimum) 3 elementer: Et lav-pas (anti-aliasing) filter tilpasset samplingfrekvensen En sampler (sample and hold), der aftaster signalet ækvidistant En analog-til-digital konvertering (ADC), der kvantificerer de analogt samplede værdier til digitale kodeord.
Multimedier Modul 4 1.1:16 Lav-pas filtrering Et lav-pas filter lader de lave frekvenser (i musik: de dybe toner) passerer og fjerner/dæmper de høje frekvenser. Eksempel: Ved lav-pas filtrering af et talesignal med højfrekvent susen (støj) kan denne fjernes. Der findes også høj-pas filtre hhv. bånd-pas filtre der lader de høje frekvenser hhv. et bånd af frekvenser passerer. Frekvensopdeling af et signal i bånd benyttes intensivt i lydkodere som fx. MP3.
Multimedier Modul 4 1.1:17 Eksempel: Et trompet frembringer lyde med frekvenser over 20 khz. For at undgå aliasing (falske lave frekvenser) i en digital optagelse af et trompetstykke må vi lav-pas filtrere lydsignalet INDEN digitalisering.
Multimedier Modul 4 1.1:18 Nyquist frekvens Hvis et signal samples for sjældent kan de høje frekvenser ikke gendannes og aliasing opstår. Et signal er båndbegrænset med båndbredde ω max (Nyquist frekvensen) hvis det ikke indeholder frekvenser over ω max Samplingsætningen siger at signalet kan gendannes korrekt hvis det samples mindst så ofte som 2 ω max. Dette betyder at samplingafstanden x < 1 2 ω max
Multimedier Modul 4 1.1:19 Båndbredde Betragt signalet: x[t] = i=0 a i cos(2πit) Hvis a i = 0 for i > ω max da er signalet båndbegrænset med båndbredde ω max. Hvis f.eks. a i = konst/i er signalet ikke båndbegrænset. Læs også: DSP-FIRST kapitel 4 side 83-89.
Multimedier Modul 4 1.1:20 Bestem samplingraten for et analogt signal med båndbredde mellem 15 Hz og 10 khz. Svar: 2 gange 10kHz lig 20 khz, eller 20ksps (kilo samples per sekund). Hvis signalet skal transmiteres gennem en kanal med båndbredde på 3.4 khz, må signalet filtreres med et lav-pas filter med båndbredde 3.4 khz inden sampling. Den minimale samplingrate bliver 6.8 khz.
Multimedier Modul 4 1.1:21 Ofte benyttes en samplingrate, der er lidt større end den faktisk krævede. Eksempelvis benyttes 44.1 ksps for musik selv om båndbredden kun er 20 khz. Dette skyldes at lav-pas filteret i praksis må have en glat overgang mellem de frekvenser der skal passere og de der skal afvises.
Multimedier Modul 4 1.1:22 Filterform Ideal filter diskontinuert Anvendt filter glat 1 1 Cut off Cut off
Multimedier Modul 4 1.1:23 Kvantificering Antag signal [ V max : V max ] Antag kvantificering af hver sample ved n bit. Da er kvantificeringsinterval: q = 2 V max 2 n Ved kvantificering begås en fejl e: e q/2
Multimedier Modul 4 1.1:24 Valg af antal bit pr. sample Vi ønsker en lille kvantificeringsstøj q/2. For fast V max vil mindre q kræve flere bit/sample n. Dette betyder at signalet fil fylde mere. Valget af n afhænger af formålet med digitaliseringen. Hvis kvantificeringsstøjen q/2 er sammenlignelig eller evt. større end den mindste numeriske signalværdi V min vil små signaler drukne i støj.
Multimedier Modul 4 1.1:25 Dynamisk område Det dynamiske område D for et signal måles i decibel (db) ved: D = 20 log 10 ( V max V min ) db Hvis vi 10-dobler V max skal vi addere 20 til D. Hvis D = 40 db vil V max V min = 10 2. Hvis D = 80 db vil V max V min = 10 4.
Multimedier Modul 4 1.1:26 Antag at et signal har et dynamisk område pa 40 db. Dvs. at V max = 100V min. Antag at vi kvantificerer med n = 6 bit. Da er kvantificeringsstøjen q 2 V max 100 2 6 = V min 64 Kvantificeringsstøjen er sammenligelig med mindste værdi. Antag at vi kvantificerer med n = 10 bit. Da er kvantificeringsstøjen q 2 V max 2 10 = V min 100 1024 Kvantificeringsstøjen er meget mindre end mindste værdi.
Multimedier Modul 4 1.1:27 Dekodning En dekoder består af (mindst) 2 elementer En digital-til-analog konvertering (DAC), der omsætter hvert digitalt kodeord til en analog størrelse. Et lav-pas-filter (rekonstruktionsfilter), der eliminerer de høje frekvenser som (kunstigt) er tilføjet signalet ved kvantificering Som regel er de lav-pas filtre, der er brugt i encoder og decoder, ens.
Multimedier Modul 4 1.1:28 Opsummering: Vi har set hvorledes analoge signaler kan digitaliseres ved brug af sampling og kvantificering. Vi har set hvorledes digitale signaler kan omsættes til analoge signaler. Er der nogen spørgsmål? Resten af i dag skal vi (ultrakort) se nogle andre repræsentationsformer (tekst, grafik, fax).
Multimedier Modul 4 1.1:29 Tekst Uformateret: Følge af ASCII-tegn (se Halsall figur 2.6) Formateret eller delvist formateret: Fx. pdf-dokument Andre dele af kurset beskriver dokumenter skrevet i hypertekst.
Multimedier Modul 4 1.1:30 Lav-niveau grafik Ved Rastergrafik opfattes skærmen som et 2D-array (et bit-map) af billedelementer kaldet pixels. I VGA-standarden [VGA = Video Graphics Array], benyttes 480 rækker og 640 søjler af pixels. Hver pixel kan rumme en (eller tre) byte svarende til 256 gråtoner/farver (eller 2 24 farver - true color). Grafiske objekter på lavt niveau består af en samling af pixels. Disse udgør ofte simple figurer, f.eks. linier, trekanter, firkanter e.lign.
Multimedier Modul 4 1.1:31 Grafiske Objekter Grafikske objekter specificeres som regel gennem et hieraki af detaliering. MPEG4 omfatter sprog (BIFS) til scenebeskrivelse og komposition. Standarder (for mere lav-niveau sprog) er: GL (Graphic Language), OpenGL SRGP (Simple Raster Graphics Package)
Multimedier Modul 4 1.1:32 Grafiske objekter er som regel designet i et høj-niveau sprog som kompakt beskriver objekterne og deres attributter: (position, skala, farve, bevægelse etc.) En inkarnation af et objekt i termer af pixel-koordinater, farver etc. fylder langt mere end høj-niveaubeskrivelsen. Ved udveksling af grafik, f.eks. i interaktive flerbrugerspil, er det en stor fordel at transmitere højniveaubeskrivelserne samt evt. efterfølgende operationer på disse.
Multimedier Modul 4 1.1:33 Grafik-processorer Moderne datamater er udstyret med en selvstændig processor, der er dedikeret til fortolkning af grafiske operationer på (lav-niveau) grafiske objekter. Typiske (lav-niveau) operationer er flytning, skalering, rotation og farveudfyldning (eng. rendering) etc.
Multimedier Modul 4 1.1:34 Fax En fax danner ved linievis skanning et binært billede. Den vertikale opløsning er 3.85 eller 7.7 linier (rækker) pr. millimeter. Den horisontale opløsning er typisk ca. 8 pels (pixels) pr. millimeter. Ved kodning af fax-dokumenter udnyttes at mange linier vil have konstant sværtning (fx. hvid).
Multimedier Modul 4 1.1:35 Farve-skannere Farveskannere fungerer som fax-maskiner. Den spatiale opløsning er typisk 1200 2400 dpi (dots pr. inch) svarende til ca. 47 94 billedpunkter pr millimeter. Bemærk at pixels ikke er kvadratiske. Mange skannere benytter ofte en intern farveopløsning på 48 bit. For brugeren vil uddata typisk være et 24-bit RGB-billede. Mere om farvebilleder næste gang.