I dag skal vi tale om Opsumering af frekvenstransformation og filtrering Dynamisk område og kvantificering Fax, skannere og andre billeddannende apparater Farver og farverepræsentation, composite video Standarder in for analog og digital fjernsyn og video S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 1 / 43
Frekvensfiltrering Et diskret signal f(x) med N samples: x = 0, 1,...,N 1 kan transformeres til en frekvensrepræsentation g(u), u = 0, 1,...,N 1, hvor frekvensindeks u svarer til frekvensen 2πu/N. Der findes flere forskellige transformationer, som vi senere skal studere, herunder Fouriertransformationen og Cosinusformationen. Frekvenskoefficienterne g(u) er en alternativ repræsentation. Matematisk set foretages et baseskift - en koordinattransformation. Signalet er stadig intakt, dvs. fra g(u) kan vi invers-transformere og rekonstruere f(x) eksakt. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 2 / 43
Koefficienterne g(u) udtrykker hvor meget energi i signalet der er knyttet til frekvensen 2πu/N indiceret ved u. Filtrering foretages ved at multiplicere g(u) med et filter w(u). f(x) g(u) lavpas båndpas højpas 1 1 1 S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 3 / 43
Kvantificering Antag signal [ V max : V max ] Antag kvantificering af hvert sample ved n bit. Da er kvantificeringsintervallet: q = 2 Vmax 2 n Ved kvantificering begås en fejl e: e q/2 Vi ønsker en lille kvantificeringsstøj q/2. For fast V max vil mindre q kræve flere bit/sample n. Hvis kvantificeringsstøjen q/2 er sammenlignelig eller evt. større end den mindste numeriske signalværdi V min vil små signaler drukne i støj. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 4 / 43
Dynamisk område Det dynamiske område D for et signal måles (som SNR-forholdet) i decibel (db) ved: D = 20 log 10 ( V max V min ) db Hvis vi 10-dobler V max skal vi addere 20 til D. Hvis D = 40 db vil Vmax V min = 10 2. Hvis D = 80 db vil Vmax V min = 10 4. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 5 / 43
Antag at et signal har et dynamisk område på 40 db. Dvs. at V max = 100V min. Antag at vi kvantificerer med n = 6 bit. Da er kvantificeringsstøjen q 2 V max 100 2 6 = V min 64 Kvantificeringsstøjen er sammenligelig med mindste værdi. Antag at vi kvantificerer med n = 10 bit. Da er kvantificeringsstøjen q 2 V max 2 10 = V min 100 1024 Kvantificeringsstøjen er meget mindre end mindste værdi. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 6 / 43
Webers lov Webers lov siger at den opfattede lydstyrke ikke er proportional men logaritmisk afhængig af den faktiske lydstyrke. Webers lov har vist sig at holde for alle sanser. Hvis man kvantificerer et støjfyldt signal uniformt vil de svage lyde opfattes meget støjfyldte hvorimod de høje lyde opfattes som frie for støj. I stedet kan kantificeringen foretages ulineært. Dette sker lettest ved at transformere signalet ulineært inden lineær kvantificering. Ved gengivelse foretages den inverse transformation efter digital-til-analog konvertering. Brug af kompression og ekspansion kaldes samlet for companding. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 7 / 43
(a) Signal encoder Signal decoder Speech input signal Bandlimiting filter Compressor Linear ADC PSTN Linear DAC Expander Low pass filter Speech output signal v i v i ' v o ' v o (b) v i ' +v' Segment codes (+) v 11 10 01 00 Linear quantization intervals 11 10 01 00 11 10 01 00 11 10 01 00 11 10 01 00 v' 00 01 10 11 00 01 10 11 00 01 10 11 00 01 10 11 00 01 10 11 Output from compressor +v v i Segment codes ( ) Input signal S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 8 / 43
(c) v o +v' Output from expander v +v v o ' Quantization code Segment code Polarity bit v' Output from DAC Note that in the G.711 standard a 3-bit segment code and 4-bit quantization code are used. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 9 / 43
Billeder Et billede er et 2D array af pixels. Gråtonebilleder er normalt kvantificeret til 8 bit/pixel og RGB-farvebilleder til 3*8 bit/pixel. Visse (skannede) billeder kan indeholder mange flere farvekanaler end Rød, Grøn og Blå, og visse billeder (fx. medicinske) er kvantificeret finere, fx. til 12 bit/pixel. Apparat Kanaler Kvantificering Fax 1 1 Digitalkamera 3 RGB 3*8 Skanner 3 RGB 3*(8-12) Sonar 1 8-12 Magnerisk resonans (3D) n (8-) Fly/Satellitbårne skannere 3-200 8-16 S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 10 / 43
Fax og skannere En fax danner ved linievis skanning et binært billede. Den vertikale opløsning er 3.85 eller 7.7 linier (rækker) pr. millimeter. Den horisontale opløsning er typisk ca. 8 pels (pixels) pr. millimeter. Ved kodning af fax-dokumenter udnyttes at mange linier vil have konstant sværtning (fx. hvid). Farveskannere fungerer som fax-maskiner. Den spatiale opløsning er typisk 1200 2400 dpi (dots pr. inch) svarende til ca. 47 94 billedpunkter pr millimeter. Bemærk at pixels ikke er kvadratiske. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 11 / 43
Eksempel En A4-side på 21 cm 29.5 cm fylder ved fax-skanning med 7.7 linier/mm og 8 pels/mm: (210 8) (295 7.7) bit = 1680 2271 bit = ca. 3.8 Mbit (47.7 kb). Fax-kompression opnår ofte en kompressionsfaktor på 10 (resulterende i under 5 kb/side). Et farvebillede på 10 15 cm fylder ved skanning i 24 bit farve og opløsning på 600 1200 dpi: ca. (100 mm 24 pixels/mm) (150 mm 47 pixels/mm) 24 bit/pixel = 2400 7050 24 bit = ca. 50.8 MB. JPEG-kompression opnår ofte en kompressionsfaktor på 20 (svarende til ca. 2.5 MB/billede). S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 12 / 43
Farver Mennesker opfatter elektromagnetisk stråling med bølgelængde λ mellem 400 nm og 700 nm som farvet lys. 5 10 nm 1 2 3 10 nm 10 nm 10 nm 8 15 10 nm 10 nm kosmisk gamma røntgen ulta synligt violet straling straling lys lys infra rødt lys mikro bølger TV radio elek tricitet Blåt Grønt Gult Rødt 400 nm 500 nm 600nm 700nm S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 13 / 43
Ved brug af 3 sensorer, der er følsomme i det røde, det grønne og det blå område er det muligt at repræsentere en delmængde af de mulige farver ved en RGB-værdi. Skaleret følsomhed Bølgelængde 400 nm 500 nm 600 nm 700 nm S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 14 / 43
I retina hos mennesker findes 3 typer kegleformede celler med pigment, der gør dem følsomme over for forskellige bølgelængder. Skaleret følsomhed 445 nm 535 nm 575 nm Bølgelængde 400 nm 500 nm 600 nm 700 nm S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 15 / 43
De spektrale filtre, som benyttes i given filmemulsion, i et digitalt kamera, en farveskanner etc. etc. er forskellige. Den registrerede RGB-værdi afhænger af sensoren. Den registrede værdi afhænger af den spektrale fordeling for lyskilden L(λ), reflektionen fra objektet RF(λ), og sensor-følsomhedskurverne f r/g/b (λ). R G B = k r L(λ)RF(λ)f r (λ) λ = k g L(λ)RF(λ)f g (λ) λ = k b L(λ)RF(λ)f b (λ) λ S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 16 / 43
Eksempel: L RF f_b f_g f_r b g r 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 00000 11111 00000 11111 00000 11111 00000 11111 00000 11111 00000 11111 00000 11111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 17 / 43
Metamerisme To spektrale fordelinger kan meget vel blive registreret med samme RGB-værdi [der findes mange flere spektrale fordelinger end der findes forskellige RGB-værdier]. Mængden af spektrale fordelinger med samme RGB-værdi kaldes en Metamerisk klasse. Når en farve skal gengives skal en repræsentant for den aktuelle metameriske klasse vælges. Forskellige monitorer og printere vælger forskellige repræsentanter. Mængden af frembringelige farver kaldes gamut og er apparat-specifik. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 18 / 43
ALTSÅ En given RGB-værdi siger i sig selv meget lidt om farven. En farvefortolkning kræver viden om følsomhedskurver for sensorene. Der findes en standard: CIE Standard Colorimetric Observer, der specificerer følsomhedskurver for en standard-sensor. Giver sensor-følsomhedskurve kan man oversætte en registreret værdi til en standard-værdi. Standarden kan benyttes som mellemformat, fx. mellem sensor og printer, således at registrerede og printede farver tilhører samme metameriske klasse. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 19 / 43
RGB RGB-farvebilleder indeholder 3 elementer (bytes) pr. pixel, mængden af rødt (R), grønt (G) og blåt (B) lys. R, G, B kaldes primærfarver og benyttes i farveskannere og ved visning på monitorer. I = R + G + B kaldes intensiteten. (r, g, b) = (R/I, G/I, B/I) kaldes de trikromatiske koefficienter. Bemærk b = 1 r g. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 20 / 43
CMYK Cyan (C), Magenta (M) og gul (Y) kaldes sekundærfarver. (c, m, y) = (1 r, 1 g, 1 b). Ved superposition (addition) af rødt, grønt og blåt lys kan man frembringe enhver farve i tetraederet udspændt af r, g, b og sort. Tilsvarende kan alle farver udspændt af c, m, y og hvid frembringes ved subtraktion. Farveprintere benytter CMYK, hvor K angiver sort. Separat brug af sort farve er billigere. Desuden er det svært at frembringe en god sort farve ved CMY alene. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 21 / 43
(a) RED (R) R M GREEN (G) YELLOW (Y) WHITE MAGENTA (M) BLUE (B) Y G BLACK C WHITE B (b) CYAN (C) C G MAGENTA (M) BLUE (B) BLACK RED (R) GREEN (G) YELLOW (Y) B M WHITE R BLACK Y S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 22 / 43
Plot af (r, g, 1 r g): S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 23 / 43
Synlige farver har bølgelængde mellem ca. 400 nm og 750 mn. De farver der kan dannes ved linearkombination af r, g, og b er kun en delmængde. Trekant = gamut for monitor. 0.9 0.8 0.7 0.6 0.5 0.4 0.3 520 510 500 490 Grøn Hvid 550 Gul S H 580 600 700 Rød 780 0.2 470 Blå 0.1 450 380 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 24 / 43
Farvesystemer RGB og CMY er to mulige systemer hvori en farve kan specificeres. Der findes et stort antal andre systemer. I fjernsynsudsendelser og i video benyttes YIQ (NTSC) og YUV (PAL). Begge disse systemer er lineært relateret til RGB, og gennemgås senere. I den grafiske branche benyttes CIE Lab-systemet. I JPEG-billedkodning benyttes YC b C r -systemet. Til farvebeskrivelse er HSV-systemet velegnet. I HSV angiver: H-farvetonen (Hue), S-mætningsgraden (Saturation), V-intensiteten (Value). HSV er lettere at bruge (end fx. RGB) ved direkte interaktiv specifikation af en bestemt farve (design, kunst). Se transformation i note. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 25 / 43
HSV Hvid Intensitet B G R Hue Sort S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 26 / 43
Farve TV og video Der eksisterer et antal standarder (geografisk og historisk bestemt) for repræsentation af farver ved fjernsynsudsendelser. NTSC [amerikansk] benytter YIQ PAL [engelsk] benytter YUV desuden CCIR [tysk] og SECAM [fransk] For både YC r C b, YIQ og YUV er relationen til RGB lineær. Y angiver intensiteten og er defineret ved: Y = 0.299R + 0.587G + 0.144B Hvis R, G, og B har samme værdi vil Y blive gengivet som hvid (grå) på en farvemonitor. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 27 / 43
Y C b C r I JPEG-metoden for billedkompression benyttes Y C b C r -systemet. De to krominanskomponenter C b og C r fås ved skalering af afvigelsen fra intensiteten: C b = 0.5643(B Y) og C r = 0.7133(R Y) eller: Y C b C r = 0.299 0.587 0.114 0.169 0.331 0.5 0.5 0.419 0.081 R G B S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 28 / 43
UV og IQ I PAL er U og V defineret ved I NTSC er I og Q defineret ved U = 0.493(B Y) V = 0.877(R Y) I = 0.74(R Y) 0.27(B Y) Q = 0.48(R Y) + 0.41(B Y) S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 29 / 43
RGB til YIQ og YUV NTSC composite video signal Y 0.299 0.587 0.114 I = 0.596 0.275 0.321 Q 0.212 0.523 0.311 PAL composite video signal Y 0.299 0.587 0.114 U = 0.147 0.289 0.437 V 0.615 0.515 0.100 R G B R G B S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 30 / 43
Et fif, der ofte benyttes i farve-billedbehandling (og i JPEGbilledkodning) er at udnytte at mennesker er ikke kan se (spatialt) højfrekvente farveændringer. Derfor kan krominanskomponenterne (I/Q, U/V, Cb/Cr) samples sjældnere end luminanskomponenten Y. I praksis nedsamples (efter passende lav-pas filtrering) de to krominanskomponenter til kvart størrelse. I JPEG giver dette (umiddelbart) en gratis kompression på en faktor 2. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 31 / 43
Fjernsyn PAL/NTSC Ved analogt fjernsyn transmiteres og opdateres billederne interlaced (i modsætning til progressivt) således at hver frame opdeles i halvframes (fields) bestående af de ulige hhv. lige skanlinier. Antallet af frames/sekund (fps), antallet af linier, og antallet af pixels/linie afhænger af PAL/NTSC. Framestørrelsen er større end billedstørrelsen, idet der afsættes linier til transmision af tekst-tv samt diverse kontrolinformation. Elektronkanonerne gentegner skærmen typisk 50/60 gange i sekundet svarende til frekvensen på lysnettet. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 32 / 43
Field 2 scan lines 525 625 Field 1 scan lines 625 525 1 1 2 2 1' 1' 2' 2' 23 25 24 26 26' 24' Visible lines 2nd field retrace 1st field retrace Visible lines 262 312 312' 262' 263 313 313' 263' Field 1 (Odd scan lines) Field 2 (Even scan lines) 525-line systems : 262.5 each field, 240 visible 625-line systems : 312.5 each field, 288 visible S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 33 / 43
System farve fps refresh samples (reelt) lines (visible) NTSC YIQ 30 60 640 (720) 525 (480) PAL YUV 25 50 768 (720) 625 (576) Aspect ratioen angiver forholdet mellem billedfeltets bredde og højde. For fjernsyn er aspekt ratioen lig 4/3. For wide-screen - (og HDTV-digital-) fjernsyn er forholdet 16/9. Vi har at 480*4/3 = 640 og 576*4/3 = 768. I CCIR-601 standarden for digital video er antallet af pixels/line dog fastsat til 720. Af disse er 18 blanke svarende til et billedfelt på 576 702. Bemærk at billedstørrelsen 480 640 svarer til VGA-standarden. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 34 / 43
Farvesampling I praksis samples krominanskomponenterne I/Q hhv. U/V sjældnere end luminanskomponenten Y. Tre typisk benyttede formater er 4:4:4-formatet, 4:2:2-formatet og 4:2:0-formatet. Fælles er at luminanskomponenten samples i alle pixel. Forskellen er hvor tæt krominansen samples. I 4:4:4 samples krominans-komponenterne i alle pixels. I 4:2:2 samples krominansen i hver anden søjle (alle rækker). I 4:2:0 samples krominansen i hver hver anden række og hver anden søjle. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 35 / 43
Pixels with Y, Cr, Cb 4:4:4 4:2:2 Pixels with Y Pixels with Cr, Cb 4:1:1 4:2:0 S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 36 / 43
For 4:2:2-farvesampling samples Y-komponenten i 720 samples/linie (hvoraf 702 indeholder data) og de to krominanskomponenter i 360 samples/linie (351 indeholder data). Samples for alle tre komponenter kvantificeres til 8 bit/pixel. Omfanget af billeddata pr. frame er altså (for PAL): 720 576 8 + 2 360 576 8 bit = 2 720 576 byte 810 kb For fjernsyn transmiteres (for PAL) 625 linier. Med 25 fps fås bitraten: 25 625 [720 + 2 360] 8bit/sec = 171.7 Mbps S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 37 / 43
SIF-Video format SIF = Source Intermediate Format. Benyttes ved (lagring af) digital video, hvor kvaliteten skal kunne sammenlignes med VHS-video. Benytter non-interlaced (progressiv) skanning og [4:2:0]-farvesampling. NTSC: 352 240 for Y, 176 120 for Cr,Cb, 30fps. PAL: 352 288 for Y, 176 144 for Cr,Cb, 25fps. Benyttes i MPEG1 og MPEG2 videokodning. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 38 / 43
CIF, QCIF, S-QCIF, 4CIF, 16CIF CIF = Common Intermediate Format. Benytter non-interlaced (progressiv) skanning og [4:2:0]-farvesampling. CIF benyttes til videokonferencer. 4CIF og 16CIF tillader større spatial opløsning. QCIF = Quarter CIF. Er designet til video telefoni. S-QCIF = Sub-QCIF er lav-kvalitets QCIF. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 39 / 43
CIF contra SIF CIF og QCIF benyttes i standarderne H.263 og H261 for videokodning. CIF har ikke NTSC/PAL-varianter men bruger 352 linier (som i PAL) og 30 fps (som i NTSC). Standard Y C r og C b fps S-QCIF 128 x 96 64 x 48 15/7.5 QCIF 176 x 144 88 x 72 15/7.5 CIF 352 x 288 176 x 144 30 4CIF 702 x 576 352 x 288 30 16CI F 1404 x 1152 702 x 576 30 S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 40 / 43
Slut på denne forelæsning De næste 2 gange handler om: - signalrepræsentation, - transformation og filtrering af signaler, - brug af MATLAB. Og derefter Informationsteori og tekstkodning. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 41 / 43
Standardiseringskommiteer ITU International Telecommunications Union ITU-R ITU-Radiocommunication Branch ITU-T ITU-Telecommunication Branch CCIR Consultative Committee for International Radiocommuncations NTSC National Television Standards Committee ISO International Standardization Organization JPEG Joint Photographic Expert Group MPEG Motion Pictures Expert Group S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 42 / 43
HDTV HDTV = High Definition TeleVision Kan benytte både gammel [4/3] og ny [16/9] aspekt ratio. Kan benytte både 4:2:2 og 4:2:0 standarderne Aspekt linier sampels/linie 4/3 1152 1440 16/9 1152 1920 For 1440 x 1152 er opløsningen langs hver dimension det dobbelte af opløsningen for et 625-liniers PAL-system med 4:2:2-farvesampling. Derfor er bitraten 4 gange højere. S. Olsen/K. Hansen (DIKU) Multimediekompression Forelæsning 2 43 / 43