wwwdk Digital lydredigering på computeren grundlæggende begreber
Indhold Digital lydredigering på computeren grundlæggende begreber... 1 Indhold... 2 Lyd er trykforandringer i luftens molekyler... 3 Frekvens, amplitude, cyklus, bølgelængde og fase... 4 Interferens... 5 Lydstyrker decibel... 5 Om analog lydoptagelse og gengivelse... 6 Om digital lydoptagelse og gengivelse... 6 Sample rate... 6 Bit depth eller resolution... 7 Sådan gemmes lyden... 8 MP3 format... 9
Lyd er trykforandringer i luftens molekyler Lyd er svingninger i luftens molekyler (eller i vands molekyler, eller fast materiales molekyler). Svingninger i et materiale f.eks. en stemmegaffel - skubber til luftmolekylerne i nærheden og skaber et område med højt lufttryk (dvs. luftmolekylerne er tæt sammenpresset), der forplanter sig videre og skubber nye luftmolekyler osv. Herunder ses, hvordan stemmegaflens svingninger har skabt områder med højt tryk og områder med lavt tryk i det luftfyldte rør. Lidt senere har lufttrykket forplantet sig væk fra lydkilden:
I vores ører findes en membran som dette lufttryk får til at vibrere. Vibrationerne omsættes til nerveimpulser, der sendes videre til hjernen vi hører. Når man afbilder lyd grafisk gøres det typisk i form af en bølge, hvor området med højt lufttryk gengives af bølgetoppen, området med lavt tryk af bølgedalen, og områder med normalt tryk befinder sig på midterlinien: Frekvens, amplitude, cyklus, bølgelængde og fase Højden fra en bølgetop til en bølgedal kaldes amplitude den afgør hvor kraftig lyden er. En cyklus er den tid det tager fra et punkt på bølgen, gennem alle amplitudeforandringer, til man igen når et tilsvarende punkt på bølgen. Begyndelsen af en cyklus siges at have en fase på 0 grader, slutningen på 360 grader. Længden der kan måles mellem to efterfølgende punkter med samme fase kaldes for Bølgelængden, og måles i cm. Frekvensen er antallet af cykler som bølgen gennemløber på ét sekund dette måles i Hertz (Hz), hvor 1 Hertz svarer til 1 cyklus i sekundet. Frekvensen bestemmer tonewwwdk Violvej 26 3050 Humlebæk Tel: 40 31 54 37
højden mennesket kan høre fra ca. 10 Hertz (en meget dyb tone) til ca. 22000 Hertz (22 KHz, en meget høj tone). Kammertonen er 440 Hertz. Interferens Når to lyde høres på samme tid så vil deres bølgemønstre glide sammen. Hvis man afspiller to lyde med samme frekvens, samme fase og samme amplitude, så vil bølgerne addere og resultere i den samme frekvens, men med dobbelt så stor amplitude (dvs. lyden bliver dobbelt så kraftig) dette kaldes konstruktiv interferens. Hvis man derimod afspiller to lyde med samme frekvens, men med faserne 180 grader forskudt ( så- kaldt modfase), og samme amplitude, så vil bølgerne udligne hinanden og resultere i stilhed det- te kaldes destruktiv interferens. Det kan lyde utro- ligt, men det er faktisk tilfældet: At man kan skabe stilhed ved at afspille to identiske lyde minimalt forskudt. Princippet anvendes i såkaldt aktiv støjdæmpning, der bruges i meget støjende omgivel- ser, f.eks. i helikoptre. I praksis bliver bølgemønstre meget komplicerede musik, tale, baggrundlyde osv. består ikke af rene toner, men af et væld af toner på én gang. Allerede i det øjeblik man adderer to rene bølger med forskellig frekvens, opstår en kompleks bølge: Lydstyrker decibel Lydstyrke - hvor kraftig lyden er udtrykkes normalt i decibel. Decibelskalaen er en skala der udtrykker forholdet mellem styrken af to lydes styrke. Hvis deres styrke er ens udtrykkes det som 0 db. Den ene af de to lydstyrker er altid en fastsat referencestyrke, som regel sat ved grænsen for, hvor lav en lyd det menneskelige øre kan høre (hvor lavt et lufttryk). Dvs når man skal måle lydstyrken på en lyd, så udtrykkes hvor mange gange stærkere lyden er, end den lyd mennesker akkurat ikke kan høre. I computerlydprowwwdk Violvej 26 3050 Humlebæk Tel: 40 31 54 37
grammer er referencelyden dog ikke sat ved høregrænsen, men ved den største amplitudehøjde, som programmet kan håndtere. 0 db er her altså den kraftigste lydstyrke, og lyde måles i forhold til, hvor meget svagere de er, end denne maksimale styrke. Decibelskalaen er en logaritmisk skala, der gør det nemmere at arbejde med lydstyrker i det interval de praktisk forekommer. På kurven her er x-aksen forholdet mellem de to lydstyrker (hvis de er ens er x=1, hvis den lyd man måler er dobbelt så stærk som referencelyden, så er x=2, hvis den er halvt så stærk, så er x = ½). På Y aksen kan lydstyrken aflæses i decibel. De med grønt markerede punkter er gode at huske på, de gælder for forholdet mellem alle lyde: Er lyden, der måles dobbelt så stærk som referenceværdien, så svarer det til 3 db, er den den samme svarer det til 0 db, er den halvt så stærk, så svarer det til -3 db. Er lyden 10 gange så stærk, så svarer det til 10 db, er den 10 gange svagere svarer det til -10 db. Om analog lydoptagelse og gengivelse Når man optager lyd analogt, f.eks. på båndoptager eller på en grammofonplade, så omsættes lydbølgerne via en mikrofon til enten magnetiske feltstyrker på et bånd, eller til et fysisk bølgemønster i en grammofonplade. Et tonehoved eller en pickup kan omsætte bølgerne til stigende og faldende elektrisk spænding, der forstærkes og sendes til en højttaler, som sætter luften i en bevægelse svarende til den mikrofonen i sin tid registrerede. Om digital lydoptagelse og gengivelse Sample rate Digital lydoptagelse er væsensforskellig fra analog, idet den digitale optagelse ikke kan lagre bølgerne fuldstændigt, men kun kan tage prøver af amplituden med faste mellemrum. Prøverne kaldes for samples, og den hyppighed de tages med kaldes for sample rate. På figuren her ses øverst en lydbølge, hvor de blå punkter, der står med samme vandrette afstand (altså er der lige lang tid imellem dem), repræsenterer de tidspunkter, hvor der gemmes en sample. Den nederste figur viser den bølge som en computer vil kunne danne ud fra de gemte samples af bølgen ovenfor. Bølgen ser lidt takket ud, og vil også lyde derefter. For at få en bølge, der kommer så tæt på originalen som muligt, så er det nødvendigt at have en høj sample rate dvs. at måle bølgen meget ofte. Jo højere frekvenser man ønsker at kunne gengive, desto højere sample rate må man have.
Forholdet imellem sample rate og den opnåelige frekvens er simpelt, og kaldes for Nyquists teorem: Det er nødvendigt at have en sample rate på mindst det dobbelte af den ønskede højeste frekvens for at kunne gengive denne uden kvalitetstab. Da mennesket kan høre lyde indtil ca. 22050 Hz (22050 svingninger i sekundet), må en lydoptagelse i optimal kvalitet altså have mindst 44100 samples i sekundet. Dette er netop den sample rate som CD er indspilles og afspilles med. Bit depth eller resolution For hver sample gemmer en digital lyd et tal, der angiver bølgens amplitude (højde over eller under grundlinien) på måletidspunktet. Når en computer skal gemme et tal skal den bruge mere hukommelse jo mere præcist den skal kunne gemme dette tal. Dvs. at jo mere præcist en samples position i forhold til grundlinien skal kunne gemmes, desto mere hukommelse (harddisk- eller CDROM-plads når der gemmes permanent) skal computeren bruge. Hvor præcist en sample skal gemmes angives som lydens bit depth, bit rate eller resolution (opløsning på dansk). Til højre ses den samme lyd, med samme sample rate (der er lige mange målepunkter vandret), men med to forskellige bit depths: Den øverste har 26 mulige værdier for amplituden, den nederste kun 7. I den nederste ses det tydeligt, at nogle af målepunkternes værdi ikke kan rammes præcist og bølgens form ændres derfor, hvorved lyden forringes. Computerlydprogrammer (og lydkort) arbejder typisk med tre forskellige bit depths: 8 bit, 16 bit eller 32 bit. En bit er en informationsenhed i computeren, der kan være enten 0 eller 1. Når man har 8 bits til rådighed kan man repræsentere 2 8 (to i ottende potens, altså 2x2x2x2x2x2x2x2), eller 256 forskellige værdier. 16 bit svarer til 65536 (hvis man ønsker at bruge negative tal, så er det fra -32768 til +32767), og 32 bit svarer til 4294967296. I praksis gemmer man som regel 8 bit som heltalsværdier (altså tal uden decimaler) mellem 0 og 255 (ikke 1 og Stereo Lyd-CD gemmer i 16 bit, 44100 i sample rate pr. kanal DVD gemmer i 24 bit, 22050 i sample rate pr. kanal (op til 5 kanaler) 256), hvor 128 er midterlinien. 16 bit værdier Mange lydkort kan ikke afspille over 16 bit Stereo FM-radio sendes som standard med 32000 i sample rate pr. kanal gemmes som heltalsværdier mellem -32768 og +32767, hvor 0 er midterlinien. 32 bit værdier gemmes som decimaltalsværdier mellem -32768 og +32767, hvor 0 er midterlinien. Hvis dit lydkort kan arbejde med 32 bits opløsning, så anbefales det, at al redigering foretages ved denne opløsning det giver en langt større præcision. Da mange lydkort ikke kan afspille 32 bits lyde, så skal lyden oftest konverteres til 16 bit før den distribueres. Det gælder i særdeleshed før den gemmes i en fil, der skal brændes til en lyd-cd da skal formatet være 44100 sample rate, 16 bit, stereo eller mono.
44100 samples pr. sekund x 16 bit pr. sample = 705600 bits pr. sekund eller 88200 bytes pr. sekund (705600 / 8) = 86 kilobytes pr. sekund (88200 / 1024) eller 5 megabytes i minuttet ( (86 * 60) / 1024) Sådan gemmes lyden Hvis man gemmer en lyd af 1 minuts varighed med en sample rate på 44100, med en bit depth på 16 bit, så når man frem til tallene til højre. Dette gælder for mono ved stereo vil datamængden være den dobbelte, og ved 32 bit igen det dobbelte (dvs. 20 megabytes i minuttet ved 44100 samples, 32 bit stereo). Computeren kan gemme lyd på mange forskellige måder, men grundlæggende har man kun brug for ganske få formater. Standardfilformatet, med filtypebetegnelsen.wav, er Windows PCM - alle de af lydkortet understøttede sample rates og opløsninger kan gemmes i dette format. Hvis man gemmer med 44100 i sample rate og med en opløsning på 16 bit, så vil alle computere med lydkort kunne afspille dem. Dataene gemmes i filen sample for sample, dvs først er gemt et tal, der angiver amplituden for den første sample (og derpå, hvis det er stereo, den anden kanals amplitude), dernæst følger amplituden for den anden sample osv. Allerførst i filen ligger en såkaldt header, der angiver sample rate, bit depth, antal kanaler og antal samples. Her ses 23 samples af en lyd i mono, med en bitrate på 8: SAMPLES:23 BITSPERSAMPLE: 8 CHANNELS: 1 SAMPLERATE: 6000 128 128 128 128 128 128 128 128 129 129 129 129 129 129 129 130 130 130 130 130 130 130 130 En bølge som ovenstående, med afmærkninger af hver sample som en firkant, ville se ud som til højre. Den vil være for kort til at nå at blive hørt 23 samples med 6000 samples pr sekus svarer til 0,0038 sekund Det er meget uhensigtsmæssigt at sende WAV filer via internettet pga. deres voldsomme størrelse. For at kunne sende dem, så kan det være nødvendigt at reducere deres størrelse. Størrelsen reduceres i første trin ved at gemme med lige præcis den maksimale kvalitet som lyden skal gengives i til FM tale-radio vil det sige 32000 i sample rate (FM
radio sender ikke frekvenser over 16000 Hz, så jævnfør Nyquists teorem skal sample raten være 32000), 16 bit, mono dette vil resultere i, at hvert minut fylder 3,66 Mb. Mange mailsystemer har en grænse på vedhæftningers størrelse på omkring 5 megabytes. Hvis man inden man sender lyden pakker den med et standard pakkeprogram som man sikrer sig at modtageren kan udpakke, f.eks. zip format, så kan størrelsen på filen reduceres betragteligt (50-90%), uden noget som helst tab af kvalitet i lyden. For at reducere størrelsen yderligere, kan det være nødvendigt, før zip-ningen, at komprimere lyden til MP3 format. MP3 format Mp3 formatet er et af flere lydkompressionsformater, der fungerer ved at analysere lydfilen, og skære lyde fra, der ikke høres af øret. Den metode som lyden bearbejdes efter kaldes psykoakustik. Hvor meget filen komprimeres afgøres bl.a. af bit raten. Hvis man ikke lytter opmærksomt efter, så hører man ved taleoptagelser sjældent, at det ikke er en original ukomprimeret lyd, når mp3 filen er gemt med en bit rate på 128 kbit (128000 bits i sekundet, 64000 pr. stereokanal kun 9% af CD-lydens 705600 pr. kanal). I stedet for at gemme filen med en konstant bit rate kan man også vælge at anvende variabel bit rate. Her fastsætter man et overordnet kvalitetsniveau, og filen gemmes så med forskellig bit rate forskellige steder i lyden: Når kvalitetskravet kan opretholdes ved en lav bit rate nedsættes denne, når der kræves en høj bit rate sættes den op. MP3 formatet er et såkaldt lossy format, hvilket vil sige, at der reelt tabes information ved at gemme i formatet. Man bør ikke redigere i en MP3 fil. At lave en MP3 fil af en MP3 fil kan sammenlignes med at lave en fotokopi af en fotokopi kvaliteten forringes tydeligt med hver kopi.