Pålidelig kommunikation over støjfyldte kanaler

Transkript

1 Pålidelig kommunikation over støjfyldte kanaler Gruppe G3-2 Arild Martin Møller Haugstad Lars Holm Jensen Thanh Dong Nguyen Robert Jørgensgaard Olesen Willard Þór Rafnsson

2

3 Institut for matematiske fag Aalborg Universitet Titel: Pålidelig kommunikation over støjfyldte kanaler Emne: Kodnings- og informationsteori Projectperiode: MAT2, forår 2007 Projektgruppe: G3-2 Gruppemedlemmer: Arild Martin Møller Haugstad Lars Holm Jensen Thanh Dong Nguyen Robert Jørgensgaard Olesen Willard Þór Rafnsson Vejleder: Christian Thommesen Kopier: 8 Sider: 89 Færdiggjort: 25. Maj 2007 Synopsis: Ved kommunikation ved hjælp af kodeord over en støjfyldt kanal risikeres det, at information går tabt, idet der introduceres fejl. Ved at tilføje redundans til kodeordene, kan man med stor sandsynlighed opdage og korrigere et begrænset antal fejl. Redundans gør desværre kommunikationshastigheden lavere. Vi viser i kanalkodningssætningen, at alle kommunikationshastigheder op til kanalkapaciteten er opnåelige, med en fejlsandsynlighed vilkårlig tæt på nul for lange tilfældige koder. Da tilfældige koder ikke er konstruktive, introduceres klassen af lineære koder. Ved hjælp af Varshamov- Gilbert-grænsen vises det, at under forudsætning af passende lav overgangssandsynlighed kan kommunikation foregå ved hjælp af lineære koder, med fejlsandsynlighed vilkårligt tæt på nul for lange koder. Reed-Solomon-koder har den højest mulige fejlkorrigeringsevne for lineære koder. Reed-Solomon-koder er i sig selv uegnede til binære kanaler, da kodelængden altid er mindre end kodealfabetets størrelse. Reed-Solomonkoder bruges derfor i konkatenerede koder, og et eksempel er Justesenkoder, der ovenikøbet er konstruktive og asymptotisk gode. Det følger af den kombinerede kildeog kanalkodningssætning, at det er ligeså effektivt at separere kildeog kanalkodning som at kombinere disse.

4 Arild Martin Møller Haugstad Lars Holm Jensen Thanh Dong Nguyen Robert Jørgensgaard Olesen Willard Þór Rafnsson 2

5 Indhold Indhold 3 Introduktion 5. Stokastiske variable Kilde Blokkoder Kommunikationshastighed Indkoder og afkoder Diskret hukommelsesfri kanal Motivation Kanalkodningssætningen 9 2. Entropifunktionen Betinget entropi Relativ entropi og gensidig information Chebyshevs ulighed De store tals lov Kanalkapacitet Indbyrdes typiske følger Asymptotisk ækvipartitionsprincip (AEP) Kanalkodningssætningen Klassen af lineære koder Lineære koder Generatormatrix Paritetstjekmatrix Syndrom

6 INDHOLD 3.5 Hamming-afstand Fejlretningsevne for lineære koder Sideklasse til en lineær kode Standardskema Syndromafkodning Varshamov-Gilbert-grænsen 3 4. Binomialfordeling Entropi og binomialkoefficienter Fanos ulighed Varshamov-Gilbert-grænsen Lineær kanalkodning Reed-Solomon-koder MDS koder Reed-Solomon-koder Cykliske koder Generatorpolynomium for cykliske koder Generatormatrix for cykliske koder Vandermonde-matrix Minimumafstand for cykliske koder Cykliske Reed-Solomon-koder Justesen-koder Kombineret kildeog kanalkodning Kildekodning Præfikskode Krafts ulighed McMillans sætning Huffman-kodning Jensens ulighed Gibbs ulighed Kildekodningssætningen Entropihastighed Kilde-kanalkodningssætningen A Entropi 77 B Afkodning 83 C Endelige legemer 85 Litteratur 89 4

7 KAPITEL Introduktion Vi indleder rapporten med nogle basale definitioner og fundamentale begreber, som er nødvendige for at kunne forstå problemstillingen. Sidst i dette kapitel beskrives motivationen for studiet af fejlkorrigerende koder.. Stokastiske variable Definition. (Hændelse) En hændelse er en delmængde af et udfaldsrum. Definition.2 (Sandsynlighedsmål) [Olo05, Definition.3.] Lad S være et udfaldsrum. P(S) er mængden af alle hændelser af udfaldsrummet. Et sandsynlighedsmål er en funktion Pr : P(S) [0, ], der afbilder hændelser over i sandsynligheder, og opfylder Pr(S) = (den sikre hændelse) og for alle disjunkte hændelser A, A 2,... S gælder ( ) Pr A k = Pr (A k ). k= Definition.3 (Stokastisk variabel) En stokastisk variabel er en funktion X : S R, hvor S er udfaldsrummet for et eksperiment. Hvis billedmængden for X er tællelig, kaldes X en diskret stokastisk variabel. X kaldes en reel stokastisk variabel, når R R. k= 5

8 KAPITEL. INTRODUKTION Definition.4 (Sandsynlighedsfordeling) Mængden P R + kaldes en sandsynlighedsfordeling hvis p =. p P Definition.5 (Frekvensfunktion af en diskret stokastisk variabel) [Olo05, Definition 2.2.2] En frekvensfunktion for en diskret stokastisk variabel X er en afbildning p : X P, givet ved p(x) = Pr (X = x), hvor X er billedmængden for X og P er en sandsynlighedsfordeling..2 Kilde Definition.6 (Kilde) En kilde S er et par (S, p), hvor S er et udfaldsrum og p : S [0, ] er en frekvensfunktion for S..3 Blokkoder Definition.7 (Blokkode) En (M, n)-blokkode C er en delmængde af X n med M elementer, hvor X kaldes kodealfabetet, og c C kaldes kodeord..4 Kommunikationshastighed Definition.8 (Kommunikationshastighed) Kommunikationshastigheden for en (M, n)-blokkode defineres som R = log M n.5 Indkoder og afkoder Definition.9 (Indkoder) En indkoder konverterer kildesymboler w = w w M, hvor w i W til entydige kodeord X n (w) = (X (w),..., X n (w)) C, hvor C er en (M, n)- blokkode. Definition.0 (Afkoder) En afkoder er en funktion Ŵ af udgangsalfabet Y n in i kildealfabet W 6

9 .6. DISKRET HUKOMMELSESFRI KANAL.6 Diskret hukommelsesfri kanal Definition. (Diskret hukommelsesfri kanal) En diskret hukommelsesfri kanal er en tretupel (X, p(y x), Y), hvor X er indgangsalfabetet, Y er udgangsalfabetet. Hvis X er indgangsvariablen og Y er udgangsvariablen, så kan Y kun afhænge af X med den betingede sandsynlighedsfunktion p(y x) = Pr (Y = y X = x)..7 Motivation Denne rapport omhandler pålidelig kommunikation over støjfyldte kanaler. Nedenfor er det generelle problem illustereret: W X n (W ) Kilde Indkoder Kanal Y n Afkoder Ŵ (Y n ) Modtager Kilden udsender beskeder repræsenteret med den stokastiske variabel W. Disse beskeder indkodes til X n (W ). Kanalen introducerer fejl i det afsendte kodeord så det bliver til den stokastiske variabel Y n. Til sidst afkodes og fejlkorrigeres Y n til Ŵ (Y n ), som er den besked modtageren får. Hvis Ŵ (Y n ) W, er der sket en fejl. Nærværende rapport handler om hvordan sandsynligheden for sådanne fejl minimeres, uden at kommunikationshastigheden R går mod nul for kodelængden n gående mod uendelig. 7

10

11 KAPITEL 2 Kanalkodningssætningen I dette kapitel vises det ved hjælp af tilfældige koder, at der findes asymptotiske gode koder. Definition 2. (Asymptotisk gode koder) Lad {C n } n være en følge af (M, n)-blokkoder med minimumafstand d n og hastighed R n. {C n } n kaldes asymptotisk god, hvis lim n R n > 0 og lim n d nn > Entropifunktionen Entropifunktionen er ifølge Sætning A. entydigt bestemt som i følgende definition. Definition 2.2 (Entropi) Lad P = {p,..., p n } være en sandsynlighedsfordeling. Så kaldes H b (p,..., p n ) = p i log b p i = p i log b p i for den b-ære entropi af fordelingen P. Hvor intet andet er nævnt benyttes 2-talslogaritmen, og således implicit den binære entropifunktion. 9

12 KAPITEL 2. KANALKODNINGSSÆTNINGEN 2.2 Betinget entropi Definition 2.3 (Betinget entropi) Lad X, Y være stokastiske variable med frekvensfunktion p. Den betingede entropi er defineret som H(Y X) = x X p(x)h(y X = x), hvor H(Y X = x) er H(Y X = x) = y Y p(y x) log p(y x). Bemærk, at H(Y X) = p(x, y) log p(y x) (2.) x X y Y følger af definitionen af betinget sandsynlighed: p(y x) = p(x, y) p(x). 2.3 Relativ entropi og gensidig information Den relative entropi fortæller noget om afstanden mellem to fordelinger. Definition 2.4 (Relativ entropi) [CT06, side 9] Lad X være en diskret stokastisk variabel med værdimængde X. Lad endvidere p og q være frekvensfunktioner for X. Den relative entropi D mellem p og q er givet ved D(p q) = x X p(x) log p(x) q(x). Relativ entropi er ikke symmetrisk, i modsætning til den gensidige information: Definition 2.5 (Gensidig information) [CT06, side 9] Den gensidige information I er givet ved I(X; Y ) = D(p(x, y) p(x)p(y)), hvor X og Y er stokastiske variable med fællesfordeling p(x, y), og marginalfordelingerne p(x) og p(y). 0

13 2.3. RELATIV ENTROPI OG GENSIDIG INFORMATION Givet to stokastiske variable X og Y fortæller den gensidige information I(X; Y ), hvor mange bits de begge indeholder af information om hinanden. Det vil for eksempel sige, at hvis X og Y er uafhængige, er I(X; Y ) = 0. Da den gensidige information er defineret udfra den relative entropi af en størrelse, udledes følgende sammenhæng mellem gensidig information og entropi: I(X; Y ) = D(p(x, y) p(x)p(y)) = p(x, y) p(x, y) log p(x)p(y) x X,y Y = x X,y Y = x X,y Y = ( p(x, y) log p(x y) p(x) p(x, y) log p(x y) x X,y Y x X,y Y p(x, y) log p(x y)) x X p(x, y) log p(x) p(x) log p(x) = H(X) H(X Y ), (2.2) ved brug af (2.). På tilsvarende udledning følger at I(X; Y ) = H(Y ) H(Y X). Hjælpesætning 2. Lad X og Y være stokastiske variable med billedmængder X og Y. Den gensidige information er da givet ved I(X; Y ) = H(X) + H(Y ) H(X, Y ). (2.3) Bevis I(X; Y ) = x X,y Y = x X,y Y p(x, y) log p(x, y) p(x)p(y) p(x, y) (log p(x, y) log p(x) log p(y)) Ved at ekspandere summen og marginalisere følger det, at den gensidige information I(X; Y ) er lig p(x) log p(x) p(y) log p(y), y Y x X,y Y p(x, y) log p(x, y) x X hvilket er det samme som H(X) + H(Y ) H(X, Y ), som skulle vises.

14 KAPITEL 2. KANALKODNINGSSÆTNINGEN 2.4 Chebyshevs ulighed Definition 2.6 (Middelværdi) [Olo05, Definition 2.4.] Lad X være en diskret stokastisk variabel med billedmængde X = {x, x 2,...} og frekvensfunktion p : X [0, ]. Middelværdien af X defineres som E [X] = x k p(x k ). k= Når den stokastiske variabel fremgår af konteksten skrives middelværdien ofte som µ. Definition 2.7 (Varians) [Olo05, Definition 2.4.3] Lad X være en stokastisk variabel med middelværdi µ. Variansen af X defineres som Var [X] = E [ (X µ) 2]. Når den stokastiske variabel fremgår af konteksten skrives variansen ofte som σ 2, hvor σ 0 kaldes spredningen. Sætning 2.2 (Chebyshevs ulighed) [Olo05, Udsagn 2.4.7] Lad X være en diskret stokastisk variabel med billedmængde {x, x 2,...}, middelværdi µ og varians σ 2. For alle konstanter c > 0 gælder Pr ( X µ cσ) c 2. (2.4) Bevis Der bliver ført bevis for det diskrete tilfælde. Et bevis for det kontinuerte tilfælde er at finde i [Olo05, Udsagn 2.4.7]. Lad p : X [0, ] være frekvensfunktionen til X. Lad c > 0 være givet og lad B = {x i X : x i µ cσ}. Per definition af varians og middelværdi haves σ 2 = E [ (X µ) 2] = (x i µ) 2 p(x i ). Da B er fuldstændigt medtaget i summen, kan vi nu skrive σ 2 B (x i µ) 2 p(x i ) c 2 σ 2 B p(x i ) = c 2 σ 2 Pr (X B), hvor det er anvendt, at (x i µ) 2 c 2 σ 2 per definition af B. Chebyshevs ulighed følger ved at dele ovenstående ulighed med σ 2 c 2. 2

15 2.5. DE STORE TALS LOV Chebyshevs ulighed giver os dermed en vurdering nedadtil af sandsynligheden for at ramme indenfor en givet afstand cσ fra middelværdien µ, givet variansen σ 2, nemlig Pr ( X µ < cσ) > c De store tals lov De store tals lov handler om at den empiriske middelværdi for en uendelig følge af stokastiske variable konvergerer mod den faktiske. Følgende er en svækket udgave af de store tals lov, der antager at variansen af den uendelige følge af stokastiske variable er endelig. Sætning 2.3 (De store tals svage lov) [Tho07] Lad X, X 2,... være en følge af ensfordelte, uafhængige stokastiske variable med E [X i ] = µ, Var [X i ] = σ 2 for i =,..., n, og lad S n = X + + X n. Da gælder det, at hvor Sn n ( ) δ > 0 : lim Pr S n n n µ δ = 0, er middeludtrækningen. Bevis Antag, at følgen af stokastiske variable har en endelig længde n. Fra lineariteten af middelværdi [Olo05, Udsagn 3.6.6] får vi, at E [ ] Sn = n n (E [X ] + + E [X n ]) = nµ n = µ. Fra multiplikationsreglen [Olo05, Udsagn b)] og additionsreglen [Olo05, Udsagn 3.6.4] for varians får vi, at Var [ ] Sn = n n 2 (Var [X ] + + Var [X n ]) = n 2 Var [X + + X n ] = nσ2 n 2 = σ2 n, dermed er standardafvigelsen for Sn n givet ved σ n. 3

16 KAPITEL 2. KANALKODNINGSSÆTNINGEN Indsættes dette i Chebyshevs ulighed, Sætning 2.2, med konstanten c = δ n σ for δ > 0 fås ( ) ) ( ) S n Pr n µ n σ (δ S n = Pr σ n n µ δ σ2 δ 2 n. Sætningen følger ved at tage grænseværdien for n gående mod uendelig i ovenstående ulighed. 2.6 Kanalkapacitet Definition 2.8 (Kanalkapacitet) Kanalkapaciteten for en diskret hukommelsesfri kanal (X, p, Y) defineres som C = max p(x) I (X; Y ), hvor X er indgangsvariablen med indgangsalfabetet X som værdimængde, Y er udgangsvariablen, med udgangsalfabetet Y som værdimængde. Det er værd at bemærke, at kapaciteten som et maksimum er veldefineret, da den gensidige information er konkav, hvorfra det følger, at ethvert lokalt maksimum også er et globalt maksimum. Ved at bruge en diskret hukommelsesfri kanal gentagne gange stiger kapaciteten for antallet af informationsbits per transmission ikke: Hjælpesætning 2.4 [CT06, Hjælpesætning 7.9.2] Lad Y n være udgangsvariablen og X n være indgangsvariablen for en hukommelsesfri kanal med kanalkapacitet C. For alle p(x n ) gælder: I (X n ; Y n ) nc. Bevis Ved gentagen anvendelse af kædereglen for entropi kan fællesentropien for X n og Y n beregnes som H(X n, Y n ) = + H(X i X,..., X i ) H(Y i Y,..., Y i, X,..., X n ) = H(X n ) + H(Y i Y,..., Y i, X n ) (2.5) 4

17 2.7. INDBYRDES TYPISKE FØLGER Ved indsættelse af (2.5) i Hjælpesætning 2. følger nu I (X n ; Y n ) = H(Y n ) + H(X n ) H(X n, Y n ) = H(Y n ) H(Y i Y,..., Y i, X n ) (2.6) Per Definition. kan Y i udelukkende afhænge af X i og derfor følger det fra (2.6), at I (X n ; Y n ) = H(Y n ) H(Y i X i ). (2.7) Da entropien i et sammensat system ikke kan overstige summen af entropier for de enkelte systemer; det vil sige eftersom der gælder H(Y n ) = H(Y i Y,..., Y i ) H(Y i ), 0 I(Y i ; Y,..., Y i ) = H(Y i ) + H(Y i Y,..., Y i ), følger det af (2.7), at I (X n ; Y n ) = H(Y i ) H(Y i X i ) I (X i ; Y i ) nc, per (2.2) og Definition 2.8, som skulle vises. 2.7 Indbyrdes typiske følger Indbyrdes typiske følger A (n) ɛ er mængden af alle følger, af længde n, som kan bruges til at approksimere den sande entropi, med fejlmargin ɛ; approksimationen kaldes også den empiriske entropi. Dette formaliseres i det følgende. Definition 2.9 (Indbyrdes typiske følger) Lad X og Y være stokastiske variable med frekvensfunktion p. For ɛ > 0, kaldes (x n, y n ) X n Y n indbyrdes typiske, skrevet (x n, y n ) A (n) ɛ, hvis følgende er opfyldt: 5

18 KAPITEL 2. KANALKODNINGSSÆTNINGEN i) n log p(xn ) H(X) < ɛ ii) n log p(yn ) H(Y ) < ɛ iii) n log p(xn, y n ) H(X, Y ) < ɛ, hvor p(x n, y n ) = n p(x i, y i ) Intuitivt, er det klart, at for n gående mod uendeligt vil n log p(xn ) gå mod entropien, da lim n n = p(x), når ellers p(x) = Pr (X = x). {X {X,...,X n} X=x} 2.8 Asymptotisk ækvipartitionsprincip (AEP) Bemærk, at en instans af (X, Y ) n kan omskrives til en instans af (X n, Y n ), ved at danne et par bestående af en liste af førsteelementerne og en liste af andenelementerne i (X, Y ) n. Sætning 2.5 (AEP for indbyrdes typiske følger) [CT06, Sætning 7.6.] Lad (X, Y ) n være en følge af n uafhængige ensfordelte par af stokastiske variable, med frekvensfunktionen p(x n, y n ) = n p(x i, y i ). Så gælder det for ethvert ɛ > 0, at ( ) i) lim n Pr (X n, Y n ) A (n) ɛ = ii) A (n) ɛ 2 n(h(x,y )+ɛ). Lad ( X n, Ỹ n ) være et par af uafhængige følger af stokastiske variable med frekvensfunktionen p(x n, y n ) = p(x n ) p(y n ), så gælder ( iii) Pr ( X ) n, Ỹ n ) A ɛ (n) 2 n(i(x;y ) 3ɛ). Bevis Ad i): Lad Z i = log p(x i ) være stokastiske variable, for i =,..., n. Middelværdierne er da givet ved E [Z i ] = x X p(x)( log p(x)) = H(X). 6

19 2.8. ASYMPTOTISK ÆKVIPARTITIONSPRINCIP (AEP) Middeludtrækningen er givet ved S n n = n = n Z i log p(x i ) = n log(p(x ) p(x n )) = n log p(xn ). Det følger nu af De store tals lov, Sætning 2.3, at for ethvert ɛ > 0 ( lim Pr ) n n log p(xn ) H(X) ɛ = 0, og dermed ( lim Pr ) n n log p(xn ) H(X) < ɛ =. (2.8) På tilsvarende vis, lad Z i = log p(y i ) være stokastiske variable, for i =,..., n. Middelværdierne er da givet ved E [ Z i ] = p(y) log p(y) = H(Y ). y Y Middeludtrækningen er givet ved S n n = n log p(yn ). Det følger nu af De store tals lov, Sætning 2.3, at for ethvert ɛ > 0 ( lim Pr ) n n log p(yn ) H(Y ) < ɛ =. (2.9) Igen på tilsvarende vis, lad Ẑi = log p(x i, y i ) være stokastiske variable, for i =,..., n. Middelværdierne er da givet ved ] E [Ẑi = x X,y Y Middeludtrækningen er givet ved p(x, y) log p(x, y) = H(X, Y ). Ŝ n n = n log p(xn, y n ). 7

20 KAPITEL 2. KANALKODNINGSSÆTNINGEN Det følger nu af De store tals lov, Sætning 2.3, at for ethvert ɛ > 0 ( lim Pr ) n n log p(xn, y n ) H(X, Y ) < ɛ =. (2.0) Punkt i) følger nu, da ligning (2.8), (2.9), og (2.0) opfylder Definition 2.9. Ad ii): Den sikre hændelse er mere sandsynlig end (x n, y n ) A (n) ɛ. Vi har derfor, at = p(x n, y n ) (x n,y n ) X n Y n p(x n, y n ). (2.) (x n,y n ) A (n) ɛ Ved udskrivning af Definition 2.9 iii) haves ɛ < n log p(xn, y n ) H(X, Y ) < ɛ. Det følger af den højre ulighed, at p(x n, y n ) nu kan vurderes nedadtil ved addition af H(X, Y ), multiplikation med n, og anvendelse af eksponentialfunktionen med 2 som grundtal, hvorved logaritmefunktionen forsvinder; vurderingen er da givet ved Ved indsættelse af (2.2) i (2.) haves p(x n, y n ) > 2 n(h(x,y )+ɛ). (2.2) (x n,y n ) A (n) ɛ n(h(x,y )+ɛ) 2 = A (n) ɛ 2 n(h(x,y )+ɛ), og resultatet følger ved at isolere A (n) ɛ. Ad iii): Sandsynligheden for at uafhængige stokastiske variable X n og Ỹ n danner typiske følger er givet ved ( Pr ( X ) n, Ỹ n ) A (n) ɛ = p(x n ) p(y n ). (x n,y n ) A (n) ɛ Ved brug af, at logaritmefunktionen er eksponentialfunktionens inverse følger det, at ( Pr ( X ) n, Ỹ n ) A (n) ɛ = 2 log p(xn )+log p(y n), (x n,y n ) A (n) ɛ 8

21 2.9. KANALKODNINGSSÆTNINGEN da log p(x n ) p(y n ) = log p(x n ) + log p(x n ). Fra ii) følger det endvidere, at ( Pr ( X ) n, Ỹ n ) A (n) ɛ 2 n(h(x,y )+ɛ) 2 log p(xn) 2 log p(yn ) 2 n(h(x,y )+ɛ) n(h(x) ɛ) n(h(y ) ɛ), hvor den sidste( ulighed gælder pr Definition 2.9. Det følger nu af Hjælpesætning 2., at Pr ( X n, X ) n ) A (n) ɛ 2 n(i(x;y ) 3ɛ), som skulle vises. 2.9 Kanalkodningssætningen Sætning 2.6 (Kanalkodningssætningen) [CT06, Sætning 7.7.] For en diskret hukommelsesfri kanal, er alle kommunikationshastigheder R under kanalkapaciteten C opnåelige; mere specifikt: i) For enhver kommunikationshastighed R < C, findes en følge af (2 nr, n)- koder med maksimal fejlsandsynlighed λ (n) 0. Desuden er det også en nødvendig betingelse, at R er mindre end kanalkapaciteten C, for at R skal være opnåelig: ii) Enhver følge af (2 nr, n)-koder med λ (n) 0 har R C. Bevis Ad i): Lad C være en tilfældig (2 nr, n)-kode således, at Pr (C) = 2 nr w= n p(x i (w)), (2.3) det vil sige, at hvert kodeord X n (w) = x (w) x n (w), for w =,..., 2 nr, består af n tilfældige kodesymboler, valgt med fordelingen p. Bemærk, at Pr (C) uafhængig af C. Lad W være den stokastiske variabel for beskeden w, der ønskes kommunikeret, og antag, at W er ligefordelt på,..., 2 nr, det vil sige, at Pr (W = w) = 2 nr. (2.4) Lad X n : W X være den stokastiske variabel for kodeordet, der afsendes over kanalen. Lad Y n være den stokastiske variabel for ordet, der modtages via kanalen og lad transitionsmatricen for kanalen være p(y x). Da kanalen er hukommelsesfri følger det, at Pr (y n x n (w)) = n p(y i x i (w)), 9

22 KAPITEL 2. KANALKODNINGSSÆTNINGEN hvor y n = y y n og x n = x (w) x n (w). Lad Ŵ (yn ) være den stokastiske variabel for beskeden beregnet ud fra Y n ved hjælp af sammenhørende typisk afkodning. Sammenhørende typisk afkodning er defineret som enhver algoritme der, efter at have returneret indeks ŵ, opfylder: X n (ŵ) og Y n er sammenhørende typiske. Der findes ikke andre w ŵ, således at X n (w ) og Y n er sammenhørende typiske. Hvis et sådan ŵ ikke findes, returnerer algoritmen et fejlindeks, 0. Lad E være hændelsen, at der sker fejl ved brug af en tilfældig kode, det (n) være sig {Ŵ W }, og lad endvidere P e (C) være sandsynligheden for, at der sker fejl i koden C. Nu kan sandsynligheden for fejl i en tilfældig kode beregnes som Pr (E) = Pr (C) P e (n) (C). C Lad λ w (C) være fejlsandsynligheden ved brug af koden C givet W = w. Da W per antagelse (2.4) er ligefordelt gælder det, at Pr (E) = C Pr (C) 2 nr λ w(c). 2 nr w= Gennemsnittet af λ w (C) over alle koder C er givet ved E [λ w ] = C Pr (C) λ w (C), og dermed er λ w uafhængigt af w, og vi kan derfor vælge W =. Sandsynligheden for fejl i en tilfældig kode kan nu skrives som Pr (E) = Pr (E W = ) = C Pr (C) λ (C). (2.5) Lad E i være hændelserne, at X n (i) og Y n er sammenhørende typiske for i =,..., 2 nr ; altså E i = {(X n (i), Y n ) A (n) ɛ } for i =,..., 2 nr. Det følger nu af (2.5), at sandsynligheden for fejl i en tilfældig kode kan beregnes som Pr (E) = Pr (E W = ) = Pr ( E c E 2 E nr 2 W = ). 20

23 2.9. KANALKODNINGSSÆTNINGEN Da sandsynligheden for en forening af hændelser, er mindre end summen af sandsynligheder for de enkelte hændelser (fordi man jo kun ser bort fra sammenfaldene), har vi nu en øvre grænse for fejl, i en tilfældig kode, som er givet ved 2 nr Pr (E) Pr (E) c + Pr (E i ). (2.6) Det følger af den asymptotiske ækvipartitionsegenskab for sammenhørende typiske følger, Sætning 2.5, at Pr (E c ) 0 for n gående mod uendeligt; det vil sige, at Pr (E c ) < ɛ for store n. Da Y n udelukkende er afhængig af X n () og X n (i) er uafhængige for i =, 2,..., 2 nr, er Y n og X n (i) for i = 2, 3,..., 2 nr uafhængige, og det følger derfor af Sætning 2.5 punkt iii), at 2 nr i=2 Pr (E i ) 2 n(i(x(i);y ) 3ɛ). i=2 2 nr i=2 Da I (X(i); Y ) C for i = 2, 3,..., 2 nr per Definition 2.8, kan summen hæves 2 nr i=2 Pr (E i ) (2 nr n(i(x;y ) 3ɛ) )2 2 n(i(x;y ) R 3ɛ). Følgeligt gælder det for alle ɛ > 0, at når R < I (X; Y ) 3ɛ, så er Pr (E i ) ɛ, 2 nr i=2 for store n. Således kan fejlsandsynligheden for en tilfældig kode per (2.6) vurderes opad med Pr (E) 2ɛ. Bemærk at det er nok at vælge 0 < ɛ < C R, og derfor gælder vurderingen for alle R < C. Da fejlsandsynligheden for en tilfældig kode er Pr (E) 2ɛ for store n, når R < C, må der findes en kode C således, at Pr (E C ) 2ɛ. Da W per antagelse (2.4) er ligefordelt kan fejlsandsynligheden for kodebogen C beregnes som P e (n) (C ) = Pr (E C ) = 2 nr 2 nr λ i 2ɛ. Ved at sortere λ i i ikke stigende rækkefølge og forkaste den første halvdel, haves en reduceret kodebog for hvilken hvert λ i 4ɛ; bevis for dette følger: 2

24 KAPITEL 2. KANALKODNINGSSÆTNINGEN Antag fejlagtigt, at det største λ i i den ikke-forkastede halvdel er skarpt større end 4ɛ, så ville alle λ i i den forkastede halvdel ligeledes være skarpt større end 4ɛ, som følge af den foregående sortering. Heraf følger det, at bidraget fra den forkastede halvdel alene overstiger 2ɛ, hvilket er en modstrid med, at λ i [0; ]. Vi opnår således maksimal fejlsandsynlighed 4ɛ ved at forkaste en passende halvdel af kodeordene i C. Således halveres antallet af kodeord fra 2 nr til 2 nr, hvilket giver en ny kommunikationshastighed R = R /n, som er vilkårligt tæt på R for store n. Eksistensen af en følge af (2 nr, n)-koder med maksimal fejlsandsynlighed λ (n) 4ɛ er nu vist for enhver kommunikationshastighed R skarpt mindre end kanalkapaciteten C. Resultatet følger ved at vælge ɛ < n for hvert n > 0. Ad ii): Lad W være en stokastisk variabel ligefordelt på W = {, 2,..., 2 nr }. W indkodes som X n (W ), der sendes over en hukommelsesfri kanal. Når Y n modtages, estimeres W med Ŵ (Y n ). Vi har fejlsandsynligheden P (Ŵ W ) = 2 nr i λ i = P e (n). Fra Fanos ulighed, Sætning 4.5, fås H(W Ŵ ) H(P (n) e ) + P (n) e log W + P e (n) nr. Vi kan ved brug af ovenstående og (2.2) skrive nr = H(W ) ) = H(W Ŵ (W ) + I ; Ŵ ( ) + P e (n) nr + I W ; Ŵ + P (n) e nr + I (X n ; Y n ) + P e (n) nr + nc, hvor Hjælpesætning 2.4 er benyttet til den sidste ulighed. Ved at dividere med n, får vi der for n gående mod uendelig giver R n + P (n) e R + C, R C, idet antagelsen λ (n) 0 medfører P (n) e 0, for n gående mod uendelig. 22

25 KAPITEL 3 Klassen af lineære koder Klassen af lineære koder er en klasse af behagelige koder, idet en lineær kode er et underrum i et vektorrum, som er et matematisk velkendt begreb. I dette kapitel introduceres lineære koder og syndromafkodning. 3. Lineære koder Definition 3. (Lineær kode) En lineær q-ær (n, k)-blokkode, er et k-dimensionelt underrum af F n q, hvor F q er et endeligt legeme bestående af q elementer. Det vil sige, at kodeordene i en q-ær (n, k)-kode er vektorer på formen c = (c,..., c n ), hvor c,..., c n F n q. Da det typisk kan ses fra sammenhængen, at kodeord er vektorer af en given længde, bliver kodeord oftest blot noteret som c = c c n. 3.2 Generatormatrix Definition 3.2 (Generatormatrix) En generatormatrix G for en (n, k)-blokkode C er en k n-matrix hvor rækkerummet udgør en base for C. 23

26 KAPITEL 3. KLASSEN AF LINEÆRE KODER 3.3 Paritetstjekmatrix Definition 3.3 (Paritetstjek) En vektor h af længden n er et paritetstjek for en (n, k)-blokkode C, hvis Gh T = 0, hvor G er en generatormatrix for C, og 0 er nulvektoren. Således står alle paritetstjek vinkelret på alle kodeord i C. Definition 3.4 (Paritetstjekmatrix) En paritetstjekmatrix H for en (n, k)-blokkode C er en (n k) n-matrix, hvis rækker er lineært uafhængige paritetstjeks for C. Rækkerummet af en vilkårlig paritetstjekmatrix for en (n, k)-blokkode C udgør en base for mængden af alle paritetstjeks for C: Vi har fra Definition 3.3, at mængden af alle paritetstjekvektorer for C udgør nulrummet for en generatormatrix G for C. Vi har også fra Definition 3.3, at en vektor h er en paritetstjekvektor for C uafhængigt af hvilken generatormatrix for C, der tales om. Ergo har alle generatormatricer for C det samme nulrum, hvilket, fra Definition 3.4, har et (n k)-dimensionelt rækkerum for en vilkårlig paritetstjekmatrix H for C som base. Vi kalder dette rum for dualkoden C, C = span(row(h)) = null(g) = {x F n : x c = 0, c C}, (3.) hvor G, H er en vilkårlig generatormatrix og paritetstjekmatrix for C, henholdsvis. Dualkoden til C er C: Vi har fra Definition 3.3 og Definition 3.4, at GH T = 0 k (n k), hvor 0 k (n k) er en k (n k)-nulmatrix. Da får vi fra egenskaber ved matrixmultiplikation, at HG T = (GH T ) T = 0 T k (n k) = 0 (n k) k, (3.2) hvor 0 (n k) k er en (n k) k-nulmatrix. Dette medfører, at G er en paritetstjekmatrix for C, hvilket fra (3.) medfører, at (C ) = C. 3.4 Syndrom Definition 3.5 (Syndrom) Lad H være en paritetstjekmatrix for en q-ær (n, k)-blokkode C og lad r F n q. Da er syndromet s af r givet ved s = syn (r) = Hr T. 24

27 3.5. HAMMING-AFSTAND Derved har vi fra (3.2), at for et modtaget kodeord r = c + e, hvor c er et kodeord og e er fejlvektoren, gælder det, at s = H(c + e) T = He T. 3.5 Hamming-afstand Definition 3.6 (Hamming-vægt og -afstand, minimumafstand) Lad x, y være vektorer i et legeme F n. Hamming-vægten af x, skrevet w H (x), er antallet af ikke-nul koordinater i x. Hamming-afstanden mellem x og y, skrevet d H (x, y) = w H (x y), er antallet af koordinater hvor x og y er forskellige. Minimumafstanden for en kode, skrevet d, er den mindste Hammingafstand mellem ethvert par af forskellige kodeord. Hjælpesætning 3. [JH04, Lemma.2.] Minimumafstanden i en lineær kode er den minimale vægt af ikke-nul ord i koden. Bevis Lad c være et kodeord med minimal vægt, således gælder w H (c) = d H (c, 0). Da 0 er et kodeord må minimumafstanden være mindre end lig w H (c). Lad nu c, c 2 være de kodeord med mindst afstand mellem hinanden. Da d H (c, c 2 ) = w H (c c 2 ) og c c 2 også er et kodeord, må w H (c c 2 ) være mindre end lig minimumafstanden. 3.6 Fejlretningsevne for lineære koder Definition 3.7 (t-fejlkorrigerende kode) [JH04, Definition.2.2] En kode C over F er t-fejlkorrigerende, hvis der for to vilkårlige og forskellige kodeord c i, c j C gælder, at e, e 2 F : w H (e ), w H (e 2 ) t = c i + e c j + e 2. Sætning 3.2 (Fejlretningsevne for blokkoder) [Ple98, Sætning 2] En blokkode C med minimumafstand d er t-fejlkorrigerende, hvis og kun hvis t d 2. 25

28 KAPITEL 3. KLASSEN AF LINEÆRE KODER Bevis (C, d H ) er et metrisk rum. Der vises, at alle kugler omkring kodeord i C med radius t d 2 er disjunkte. Antag fejlagtigt det modsatte. Da eksisterer der kodeord u, v C, hvor u v og B t (u) B t (v). Lad w B t (u) B t (v). Da gælder det fra trekantsuligheden, at d H (u, v) d H (u, w)+d H (w, v) 2t, hvor den sidste ulighed gælder, da kuglerne ikke er disjunkte. Da 2t d fra angivelsen af t fra før, får vi, at d H (u, v) d. Men da d H (u, v) = w H (u v) d, hvor den sidste ulighed gælder da u og v er forskellige og derved at u v 0, fører dette til modstrid. Hvis et modtaget ord r har t eller færre fejl, betyder det, at d H (r, c) t for et entydigt kodeord c C. Koden er derved t-fejlkorrigerende, da koden blot kan rette et modtaget ord til det kodeord, som ordet ligger i en kugle omkring. 3.7 Sideklasse til en lineær kode F n q er ikke bare et vektorrum med koder som underrum, men en abelsk gruppe med koder som undergrupper. Et modtaget ord r ligger derved i en sideklasse til den givne kode. Definition 3.8 (Sideklasse til en lineær kode) [JH04, Definition.3.2] Lad C være en lineær kode og a F n. Mængden a + C = {a + c : c C} er en sideklasse til C, med a som repræsentant. Bemærk, at der til en given (n, k)-kode C findes q n k forskellige sideklasser. En sideklasse a + C kan repræsenteres af et vilkårligt element b a + C, da b = a + c for et c C, og C er lukket under addition og substraktion. Som repræsentant vælges derfor typisk det ord i sideklassen, der har mindst vægt, og dette ord kaldes for en sideklasseleder. Sideklasselederen er et godt estimat af den fejlvektor, der forårsager, at et modtaget ord r lander i den sideklasse sideklasselederen repræsenterer. 3.8 Standardskema Syndromafkodning kan betragtes som en optimering af afkodning ved hjælp af et standardskema. Definition 3.9 (Standardskema) Et standardskema er en tabel, der indeholder alle vektorer i F n q, således at hver række er en sideklasse med den første celle i rækken som sideklasseleder. Et standardskema kaldes ofte Slepian array og standard array i engelsk litteratur. 26

29 3.9. SYNDROMAFKODNING Algoritme 3.: Konstruktion af standardskema Input: En (n, k)-lineær blokkode C Resultat: Et q n k q k -standardskema for C Lad S være et tomt skema Skriv alle koder i C som den første række i S, med 0 i den første søjle sålænge antallet af rækker i S < q n k udfør Vælg en vektor v F n q af minimal vægt, som ikke allerede befinder sig i S Læg v til alle elementer i den første række, og skriv den resulterende række nederst i S returner S Algoritme 3.2: Afkodning ved brug af et standardskema Input: Et standardskema S og et modtaget ord y Resultat: Antaget afsendt ord Afkod y til det ord i den første række af S, som ligger i samme søjle, som y ligger i returner Ordet Eksempel 3. (Afkodning ved brug af et standardskema) Lad C være en lineær (4, 2) blokkode over F n 2 genereret af generatormatricen [ ] 0 0 G =. 0 Standardskemaet for C konstrueret med Algoritme 3. er givet ved Sidekl. ledere Koden C (0, 0, 0, 0) (, 0, 0, ) (0,,, ) (,,, 0) Sideklasser (0, 0, 0, ) (, 0, 0, 0) (0,,, 0) (,,, ) (0, 0,, 0) (, 0,, ) (0,, 0, ) (,, 0, 0) (0,, 0, 0) (,, 0, ) (0, 0,, ) (, 0,, 0) Fra Definition 3.6 og Sætning 3.2 fås, at d = 2 og at C kan rette op til t = d 2 = 0 fejl med garanti. Lad m = (0,,, ) C være den afsendte besked, e = (0, 0,, 0) være fejlvektoren, og r = m + e = (0,, 0, ) være den modtagen besked. r ligger i række 3 og søjle 3, hvilket ved brug af Algoritme 3.2 afkoder til (0,,, ) = m. På den anden side, hvis e = (, 0, 0, 0), så er r = (,,, ), hvilket afkoder til (,,, 0). 3.9 Syndromafkodning En Syndromafkoder er et eksempel på en afkoder for lineære blokkoder, der er let at konstruere, og som ovenikøbet er forholdsvis let beregnelig, når n k 27

30 KAPITEL 3. KLASSEN AF LINEÆRE KODER ikke er for stor. Disse egenskaber gør syndromafkodning egnet som grundlag for vurdering af mere specielle afkodningsskemaer. Syndromafkodere benytter sig af det faktum, at ord, der ligger i den samme sideklasse til C, har samme syndrom. Hjælpesætning 3.3 [JH04, Lemma.3.] Lad C være en lineær blokkode. To ord x, y er i samme sideklasse til C, hvis og kun hvis de har samme syndrom. Bevis Ad x, y har samme syndrom: Antag, at x og y ligger i sideklassen a + C til C, hvor a F n q. Lad H være paritetstjekmatricen til C. Da har vi, at Hx T = H(a + c ) T = Ha T = H(a + c 2 ) T = Hy T, hvor c, c 2 C, hvilket per Definition 3.5 giver, at x og y har samme syndrom. Ad x, y er i samme sideklasse til C: Antag, at x og y har samme syndrom. Lad igen H være paritetstjekmatricen til C. Da har vi fra Definition 3.5, at Hx T = Hy T, hvilket giver, at H(x y) T = 0, hvilket kun er muligt, når x y er et kodeord i C, hvilket medfører, da x y + C og y y + C, at x og y ligger i samme sideklasse. Da der findes q n k forskellige sideklasser til en given (n, k) kode C, findes der derved q n k forskellige syndromer til C. Dette er hele Fq n k. Man kan derved nøjes med at konstruere en opslagstabel, der indeholder syndromer associeret med deres sideklasseleder. Algoritme 3.3: Konstruktion af et syndromskema Input: En paritetstjekmatrix H for en q-ær (n, k)-lineær blokkode C Resultat: Et q n k 2-syndromskema for C Lad S være et tomt skema List alle elementer i F n q i en ikke-aftagende vægt sålænge der er < q n k rækker i S udfør Lad x være det næste element i listen Beregn syn (x) = Hx T hvis syn (x) ikke findes blandt elementerne i den første søjle i S så tilføj rækken [ syn (x) x ] til S returner S Algoritme 3.4: Afkodning ved brug af et syndromskema Input: Et syndromskema S og et modtaget ord y Resultat: Antaget afsendt ord Beregn syn (y) Find rækken [ syn (y) x ] returner y x 28

31 3.9. SYNDROMAFKODNING En syndromafkoder afbilder derved syndromer på fejl, hvilket giver anledning til deres navn. Eksempel 3.2 (Afkodning ved brug af et syndromskema) Lad C være defineret som i Eksempel 3.. Fra Definition 3.4 fås paritetstjekmatricen for C til [ ] 0 0 H =. 0 Syndromskemaet for C konstrueret med Algoritme 3.3 er givet ved Syndrom Sideklasseleder ( ) T 0 0 (0, 0, 0, 0) ( ) T 0 (0, 0, 0, ) ( ) T 0 (0, 0,, 0) ( ) T (0,, 0, 0) Lad igen m = (0,,, ) C være den afsendte besked, e = (0, 0,, 0) være fejlvektoren, og r = m+e = (0,, 0, ) være den modtagen besked. syn (r) = (, 0) T, hvilket ved brug af Algoritme 3.4 afkoder til (0,,, ) = m. På den anden side, hvis e = (, 0, 0, 0), så er r = (,,, ), hvilket afkoder til (,,, 0). Algoritme 3.2 og 3.4 er maksimalsandsynlighedsafkodere 2, idet de afkoder til det nærmeste kodeord. De kan dog begge laves om til en minimumafstandsafkoder 3 ; Algoritme 3.2 bliver en minimumafstandsafkoder ved at fjerne de sideklasser i skemaet, der kan repræsenteres af flere end én sideklasseleder af vægt < d, mens Algoritme 3.4 bliver en minimumafstandsafkoder ved at fjerne de indgange i skemaet, hvor flere end én sideklasseleder af vægt < d har samme syndrom. 2 Maksimalsandsynlighedsafkodning er defineret i Definition B.2. 3 Minimumafstandsafkodning er defineret i Definition B.. 29

32

33 KAPITEL 4 Varshamov-Gilbert-grænsen I dette kapitel vises Varshamov-Gilbert-grænsen, der giver eksistensen af visse lineære (n, k)-koder. Denne bruges efterfølgende til at vise eksistensen af asymptotisk gode lineære koder for binære symmetriske kanaler med lav fejlsandsynlighed. 4. Binomialfordeling Definition 4. (Indikatorvariabel) [Olo05, Definition 2.5.] Lad A være en hændelse. Den diskrete stokastiske variabel I A : S {0, }, defineret ved { når s A, I A (s) = 0 når s / A, kaldes en indikatorvariabel for A. Hvis A indtræffer med sandsynlighed p, har I A frekvensfunktionen { p for k =, p(k) = p for k = 0. Ved n uafhængige gentagelser af A, fås ved summation af I A erne en ny stokastisk variabel X, som har en såkaldt binomialfordeling, der defineres i det følgende. 3

34 KAPITEL 4. VARSHAMOV-GILBERT-GRÆNSEN Definition 4.2 (Binomialfordeling) [Olo05, Definition 2.5.2] Lad X være en stokastisk variabel med værdimængde {0,,..., n}. Hvis p(k) = ( ) n p k ( p) n k k er frekvensfunktionen for X, siges X at have en binomialfordeling, skrevet X bin(n, p). Hjælpesætning 4. [Olo05, Opgave.4.2 (b)] Lad n, k Z +, så gælder ( ) ( ) n n k = n. k k Bevis Per definition af binomialkoefficienten følger det, at ( ) n n! k = k k (n k)!k! kn(n )! = ((n ) (k ))!k(k )! (n )! = n ((n ) (k ))!(k )! ( ) n = n, k som skulle vises. Sætning 4.2 [Olo05, Udsagn 2.5.] Hvis X bin(n, p), så er E [X] = np og Var [X] = np( p). Bevis Lad X i bin(, p). Da er X i en indikatorvariabel, og derved E [X i ] = p. Fra [Olo05, Følgesætning 2.4.5] fås der, at Var [X i ] = E [ Xi 2 ] (E [Xi ]) 2 = p p 2 = p( p). Da X bin(n, p) tilsvarer n uafhængige udførsler af X i, det vil sige, X = n X i, fås der fra [Olo05, Udsagn og 3.6.4], at E [X] = np og Var [X] = np( p), hvilket skulle vises. 32

35 4.2. ENTROPI OG BINOMIALKOEFFICIENTER 4.2 Entropi og binomialkoefficienter Hjælpesætning 4.3 For p (0, ), q = p, λ [0, p], µ = λ, gælder, λn k=0 Bevis For ethvert x (0, ] gælder, λn x λn k=0 ( ) n p k q n k λ λn µ µn p λn q µn. k ( ) n p k q n k k hvoraf vi kan slutte, for x (0, ], λn k=0 λn k=0 k=0 ( n k ( n k ) x k p k q n k ) (px) k q n k = (q + px) n, ( ) n ( n p k q n k x λ (q + px)). k Vi ønsker at minimere ulighedens højre side. Vi finder minimum for ϕ(x) = x λ (q + px), x > 0 ved at finde nulpunkter for ϕ (x) og kontrollere. Dette giver os, ϕ(x) har minimum i x = λq µp. Da λq µp er opfyldt når λ p fås, λn k=0 ( ) ( n p k q n k ϕ k ( )) λq n ( = λ λ µ µ p λ q µ) n. µp Sætning 4.4 Lad H : [0, ] R være entropifunktionen givet ved For 0 λ /2 gælder det, at H(λ) = λ log 2 λ ( λ) log 2 ( λ). nλ k=0 ( ) n 2 nh(λ). k 33

36 KAPITEL 4. VARSHAMOV-GILBERT-GRÆNSEN Bevis Fra Hjælpesætning 4.3 haves λn k=0 Lad p = q = 2, og resultatet følger da ( ) n p k q n k λ λn µ µn p λn q µn. k λ λn µ µn = 2 n( λ log λ µ log µ) = 2 nh(λ). 4.3 Fanos ulighed Definition 4.3 (Markov-kæder) Lad X 0, X, X 2,... være diskrete stokastiske variable med udfaldsrummet S, hvorom det gælder Pr (X t+ = x t+ X 0 = x 0,..., X t = x t ) = Pr (X t+ = x t+ X t = x t ), hvor x 0,..., x t+ S, så kaldes {X t } en Markov-kæde. Sætning 4.5 (Fanos ulighed) [CT06, Sætning 2.0.] For et estimat ( ˆX så er X Y ˆX en Markov-kæde, hvor ˆX = g(y ) og med P e = Pr X ˆX ), gælder at H(P e ) + P e log( X ) H(X Y ). Bevis Definer en stokastisk variabel E, { hvis X E = ˆX, 0 hvis X = ˆX. Vi bruger kæderegelen for entropi til at udvide H(E, X Y ) på to forskellige måder: H(E, X Y ) = H(X Y ) + H(E X, Y ) = H(X Y ), eftersom E er en funktion af X og g(y ) som er kendte, hvor E derved er konstant og derfor H(E X, Y ) = 0, og H(E, X Y ) = H(E Y ) + H(X E, Y ). 34

37 4.4. VARSHAMOV-GILBERT-GRÆNSEN Da betingelser ikke kan øge entropien, har vi H(E Y ) H(E) = H(P e ). For H(X E, Y ) kan vi finde følgende øvre grænse: H(X E, Y ) = e E Pr (E = e, Y = y) H(X E = e, Y = y) y Y = Pr (E = e) Pr (Y = y E = e) H(X E = e, Y = y) e E y Y = ( P e )0 + P e Pr (Y = y E = ) H(X E =, Y = y) y Y (4.) P e log( X ), (4.2) hvor (4.) fås da, når E = 0, så er X konstant og derfor H(X E = 0, Y = y) = 0, og (4.2) fås ved at betragte den betingede stokastiske variabel X E =, Y = y som lige fordelt for hvert y og bemærke, at Tilsammen giver dette os (X E =, Y = y) = X. H(X Y ) = H(E, X Y ) = H(X Y ) + H(E X, Y ) H(P e ) + P e log( X ), hvilket er Fanos ulighed. 4.4 Varshamov-Gilbert-grænsen For at bevise Varshamov-Gilbert-grænsen, får vi brug for en teknik til at udvide lineære koder: Følgende hjælpesætning siger, at hvis man kan finde et ord x i passende Hamming-afstand d fra koden U, kan man udvide koden med alle linearkombinationer af x, samtidigt med, at minimumafstanden d bevares. Hjælpesætning 4.6 Lad U F n q være en lineær (n, k)-kode med minimumafstand mindst d. Hvis der eksisterer et x således, at d H (x, u) d for alle u U, er C = {λx + u λ F q, u U} (4.3) en lineær (n, k + ) kode med minimumafstand mindst d. 35

38 KAPITEL 4. VARSHAMOV-GILBERT-GRÆNSEN Bevis Ad C er en lineær (n, k + ) kode: Nok at vise lineære aflukningsegenskaber, da C F n q, F n q er et vektorrum og x forenet med en vilkårlig base for U udgør en base for C. C er lukket under addition, da λ x + u, λ 2 x + u 2 C = (λ + λ 2 )x + u + u 2 C, og C er lukket under multiplikation, da som skulle vises. λx + u C, f F q = fλx + fu C, Ad d H (λ x + u, λ 2 x + u 2 ) d: Vi deler op i to tilfælde; λ = λ 2 og λ λ 2. For λ = λ 2, har vi, For λ λ 2, har vi, d H (λ x + u, λ 2 x + u 2 ) = d H (u, u 2 ) d. d H (λ x + u, λ 2 x + u 2 ) = d H (λ x λ 2 x, u 2 u ) = d H (x, (λ λ 2 ) (u 2 u )) d. Nu er det nok at påvise eksistensen af et ord i passende afstand fra en lineær kode C, for at vise, at C kan udvides med endnu en dimension. Dette udnyttes i følgende sætning. Sætning 4.7 (Varshamov-Gilbert-grænsen) [JH04, Sætning.2.2] Der findes en q-ær lineær (n, k)-kode med minimumafstand mindst d, hvis ( ) ( ) n n + (q ) + + (q ) d q n k. (4.4) d Bevis Beviset er per induktion over k. Basistrin: For k = : Lad U være den lineære (n, 0) kode. Da U kun består af nulordet, er minimumafstanden for U mindst d. Der findes ( ) n (q ) i i forskellige ord i F n q med Hamming-afstand i til nulordet. Dermed findes der højst ( ) ( ) n n + (q ) + + (q ) d d 36

39 4.5. LINEÆR KANALKODNING forskellige ord i F n q med Hamming-afstand skarpt mindre end d til nulordet. Men der findes i alt q n ord i F n q, så hvis ( ) ( ) n n + (q ) + + (q ) d d < q n, (4.5) følger det, at der findes et ord i F n q med Hamming-afstand mindst d til nulordet og det følger nu af Hjælpesætning 4.6, at C = {λx + u λ F q, u U} er en lineær (n, ) kode, da x udgør en basis for C. Basistrinnet følger nu, da (4.4) er en skarpere ulighed end (4.5) for k =. Induktionstrin: For k = j: Per induktionsantagelse medfører (4.4), at der findes en lineær (m, k) kode med minimumafstand mindst d for alle k < j. Antag, at (4.4) er opfyldt for k = j. Så gælder den svagere ulighed ( ) ( )) n n q ( k + (q ) + + (q ) d < q n d også for k = j. Per induktionsantagelse følger det nu, at der findes en lineær (m, k ) kode U med minimumafstand mindst d for k = j. Men da uligheden er skarp findes et ord i F n q med afstand mindst d til hvert ord i U og det følger nu af Hjælpesætning 4.6, at der findes en lineær (m, k) kode med minimumafstand mindst d for k = j, som skulle vises. 4.5 Lineær kanalkodning Definition 4.4 (Binær symmetrisk kanal) En hukommelsesfri binær kanal, hvori fejl indtræffer med sandsynlighed p u- afhængigt af det transmitterede symbol, kaldes en binær symmetrisk kanal. Sætning 4.8 Givet en binær symmetrisk kanal med overgangssandsynlighed p < 4, så eksisterer en følge af lineære (n, k)-koder således, at i) fejlsandsynlighederne P (n) e går mod 0 for n gående mod uendelig, ii) kommunikationshastighederne R (n) går mod H(2p) for n gående mod uendelig. Bevis Ad i): Lad I i være indikatorvariable for fejl i det i-te modtagne ord. I, I 2,... er en følge af ensfordelte, uafhængige stokastiske variable. Vi bemærker, 37

40 KAPITEL 4. VARSHAMOV-GILBERT-GRÆNSEN E [I i ] = p og Var [I i ] = p( p). Lad S n betegne n I i. Vi har da, fra de store tals svage lov, Sætning 2.3, at ( ) lim Pr S n n n p ɛ = 0. Hvis koden er t-fejlrettende, for t = d 2 n(p + ɛ) går fejlsandsynligheden dermed mod 0. Når vi ser bort fra kommunikationshastigheden, er det klart, vi kan vælge d og k så dette er opfyldt. Ad ii): Da p < 4, kan vi vælge et ɛ så 2p + 3ɛ < 2. Vi vælger d n så d n = 2 n(p + ɛ). Så gælder d n2 (n) n(p + ɛ), og vi har fra i), at P e 0 for n. For ethvert ɛ findes et N så der for alle n > N gælder, at dn n < 2(p+ɛ)+ n < 2p + 3ɛ < 2. Af Sætning 4.4 følger det, når dn n < 2, at d n k=0 ( ) n 2 nh( dn n ), k hvilket udgør venstresiden i (4.4) fra Sætning 4.7. For n > N vælges k n så k n = n( H( dn n )). Af Sætning 4.7 følger det, at da 2 nh( dn n ) 2 n kn, så findes en lineær (n, k n )-kode med minimumafstand mindst d n. Ved indsættelse ses, at kommunikationshastighederne er ( n H R (n) = k ( ( n n H dnn )) n = = n hvoraf vi får lim n R (n) = H(2p), som skulle vises. ( 2 n(p+ɛ) n n )), 38

41 KAPITEL 5 Reed-Solomon-koder Vi vil nu introducere forskellige klasser af koder, med et særligt fokus på Reed-Solomon-koder. Reed-Solomon-koder er interessante, fordi de har bedst mulig fejlretningsegenskab, men også fordi, at de findes i forskellige varianter; eksempelvis findes der Reed-Solomon-koder, der er cykliske. Dette gør, at Reed-Solomon-koder har stor teoretisk og praktisk relevans. I praksis anvendes de blandt andet til fejlretning på CD er og DVD er og ved satellitkommunikation.[jh04, Kapitel 5]. I informationsteori bruges de ofte som grundlag for andre koder, enten i sig selv som en afbildning til en binær kode, eller sammen med andre koder til dannelse af konkatenerede koder. Centralt i dette kapitel er, at Reed-Solomon-koder danner grundlag for Justesen-koder konkatenerede koder, som udgør en klasse af konstruktive a- symptotisk gode koder. 5. MDS koder Sætning 5. (Singletongrænsen) [JH04, Sætning 5..] Lad C være en (n, k)-blokkode med minimumafstand d. Så gælder d n k +. 39

42 KAPITEL 5. REED-SOLOMON-KODER Bevis Lad q betegne størrelsen af alfabetet til C. C har derved q k elementer. Da C har minimumafstand d, kan d faste indgange slettes fra alle kodeord i C uden indflydelse på kodens størrelse. Dette giver en kode, der er en delmængde af F n d+ q, hvilket medfører, at q k q n d+, hvoraf resultatet følger. Definition 5. (MDS-kode) En given (n, k, d)-kode er en MDS-kode, hvis koden opfylder Sætning 5. med lighed. Da fejlretningsegenskaben for en kode er en funktion af minimumafstanden, får vi, at for givne n og k er MDS-koderne de koder, der har bedst fejlretningsegenskab. 5.2 Reed-Solomon-koder Definition 5.2 (Reed-Solomon-kode) [JH04, Definition 5..] Lad F q være et endeligt legeme med q elementer og x,..., x n være forskellige elementer i F q. Lad endvidere P q (k) være mængden af polynomier fra F q [x] af grad < k, givet ved P q (k) = {a k x k + + a x + a 0 a i F q }, k n q. En (n, k)-reed-solomon-kode defineres som C = {(f(x ), f(x 2 ),..., f(x n )) F n q : f P q (k)}. Et kodeord c C siges at være genereret af et polynomium f P q (k), hvis c = (f(x ), f(x 2 ),..., f(x n )). Jævnfør Definition 3.2 har en Reed-Solomon-kode en generatormatrix på formen x x 2 x n......, x k x k 2 x k n og fra Sætning 5.9 ved vi, at koden har en paritetstjekmatrix på formen x x 2 x n x 2 x 2 2 x 2 n (5.) x n k x2 n k xn n k MDS står for Maximum Distance Separable, hvilket kan oversættes til Optimal afstand. 40

43 5.2. REED-SOLOMON-KODER Idéen i Reed-Solomon-koder er således at bruge de data, som ønskes sendt over en støjfyldt kanal, som koefficienter i et (k )-grads polynomium. Polynomiet evalueres i n k forskellige, forudbestemte punkter og derefter sendes resultaterne af evalueringerne over kanalen. Så længe mindst k evalueringer når frem, ved vi fra lineær algebra og Lagrange-interpolation, at modtageren entydigt kan bestemme det oprindelige polynomium, det vil sige beskeden. Man kan også konstruere et polynomium, der giver beskeden ved evaluering i de første k af de n punkter. I det tilfælde, at ingen fejl er sket, kan beskeden læses direkte i de sendte data. Således kan man bytte beregningstid ved indkodning for beregningstid ved afkodning. En sådan kode kaldes systematisk. Idet mængden P q (k) udgør et vektorrum over F q af dimension k, er Reed- Solomon-koder lineære og dermed er enhver linearkombination af to vilkårlige kodeord også et kodeord. Sætning 5.2 En Reed-Solomon-kode er en MDS-kode. Bevis Lad C være en (n, k)-reed-solomon-kode. Fra Sætning 5. vides, at d n k +. Det er derfor nok at vise, at d n k +. Et polynomium f P q (k) kan højst have k nulpunkter, jævnfør Sætning C.3, således har kodeordet, som består af n forskellige evalueringer af f, mindst vægt n k +. Tilsammen giver dette, at d = n k +, dermed opfylder C Definition 5.. Sætning 5.3 Lad C være en (n, k)-reed-solomon-kode og r = c + e være et modtaget ord, hvor c er et kodeord genereret af f(x) og e er fejlen påført ved overførsel gennem en støjfyldt kanal. Antag, at w H (e) t = n k 2. Så findes Q 0, Q F q [x], hvor deg(q 0 ) l 0 := n t og deg(q ) l := n t (k ) således at Q(x, y) := Q 0 (x) + yq (x) F q [x, y]\{0}, opfylder, at Q(x i, r i ) = 0 for i =,..., n og f(x) = Q 0(x) Q (x). (5.2) Bevis Ad Q(x i, r i ) = 0: Bemærk, at Q har l l + koefficienter. Dette kan 4

44 KAPITEL 5. REED-SOLOMON-KODER vurderes nedadtil med n + per definition af t da n k n k l l + = n + + n (k ) n k = 2n 2 k + 2 2n (n k) k + = n +. Eksistensen af Q følger nu, da Q(x i, r i ) = 0; i =,..., n er et homogent lineært ligningssystem med n ligninger og l l + n + ubekendte. Ad (5.2): Da c = (f(x ),..., f(x n )), Q(x i, f(x i ) + e i ) = 0 og {e i = 0 : i =,..., n} n t, må Q(x, f(x)) have mindst n t rødder. Modsat kan Q(x, f(x)) højst have grad n t. Således må Q(x, f(x)) 0, det vil sige, 0 = Q 0 (x)+f(x)q (x) og derfor f(x) = Q 0(x) Q (x). Bemærk, at Q (x) 0, fordi Q 0 (x) + rq (x) har mindst n t rødder og derved deg(q) n t, og deg(q 0 ) n t, hvilket ikke kan gælde, hvis Q (x) = 0. Her er det værd at bemærke, at for r = c + e, w H (e) t så gælder ( Q(x, y) = Q 0 (x) + rq (x) = Q (x) y + Q ) 0(x) = Q (x)(y f(x)) = 0 Q (x) = Q (x i )(r i c i ) = Q (x i )e = 0, i =,..., n, og således må de w H (e) fejl, som optræder i r have indgange blandt Q s nulkomponenters indgange. Af samme grund kaldes Q for fejllokatorpolyno- 42

45 5.2. REED-SOLOMON-KODER miet. Algoritme 5.: Reed-Solomon-afkodningsalgoritme Denne algoritme afkoder et modtaget kodeord efter princippet vist i Sætning 5.3. Her antages det, at de x i, i =,..., n, som afsender brugte ved indkodning, er kendt af modtager. Input: Et modtaget ord r = (r,..., r n ) Resultat: Antaget afsendt ord Løs følgende lineære ligningssystem: x x 2 x l 0 r r x r x 2 r x l x 2 x 2 2 x l 0 2 r 2 r 2 x 2 r 2 x 2 2 r 2 x l x n x 2 n x l 0 n r n r n x n r n x 2 n r n x l n Lad polynomierne Q 0, Q, f være defineret ved: Q 0,0 Q 0, Q 0,2. Q 0,l0 Q,0 Q,. Q,l = 0. Q 0 (x) = l 0 Q 0,j x j, Q (x) = l j=0 j= Q,j x j, f(x) = Q 0(x) Q (x). hvis f(x) F q [x] så returner (f(x ), f(x 2 ),..., f(x n )) ellers returner Fejl Når Reed-Solomon-koder bruges i praksis, er de oftest over F 2 m, hvor x i vælges som α i, hvor α er et primelement i F 2 m. 2 Eksempel 5. Her vises, hvordan indkodning i en Reed-Solomon-kode foregår. Lad C være en lineær (7, 3)-Reed-Solomon-kode over F 8. F 8 skrives som F 2 3, hvor der som irreducibelt polynomium vælges i(x) = x 3 + x +. Da C er over F 2 3, giver dette os, at x i = α i, hvor α = x er et primelement i F 2 3, og at P 2 3(3) = {a 2 x 2 + a x + a 0 a i F 2 3} 2 For nærmere information om F 2 m og hvordan der regnes deri, se Afsnit C. 43

46 KAPITEL 5. REED-SOLOMON-KODER er mængden af informationspolynomier. Til beregninger i C bruges følgende tabel: Potens af α Polynomium Binære 3-tupel 0 (0, 0, 0) α 0 (, 0, 0) α x (0,, 0) α 2 x 2 (0, 0, ) α 3 x + (,, 0) α 4 x 2 + x (0,, ) α 5 x 2 + x + (,, ) α 6 x 2 + (, 0, ) Lad f(x) = α 0 x + α 0 = x + P 2 3(3) være den information, der ønskes indkodet. Da har vi fra Definition 5.2, at c = (f(x ),..., f(x 7 )) = ( +, x +, x 2 +, x + +, x 2 + x +, x 2 + x + +, x ) = (0, x +, x 2 +, x, x 2 + x +, x 2 + x, x 2 ) = (0, α 3, α 6, α, α 5, α 4, α 2 ) F Cykliske koder I det følgende introduceres cykliske koder. Ved at opfatte kodeordene som polynomier, vises det i Sætning 5.5, at en række interessante algebraiske egenskaber gør sig gældende for de såkaldte generatorpolynomier knyttet til cyklisk koder. Definition 5.3 (Cyklisk kode) [JH04, Definition 6..] En (n, k)-lineær kode C over F q kaldes cyklisk, hvis det gælder, at c = (c 0, c,..., c n ) C : ĉ = (c n, c 0,..., c n 2 ) C. ĉ betegner således det cykliske skift af c. Definition 5.4 (Kodeordspolynomium) Lad c = (c 0,..., c n ) være et kodeord. Det tilsvarende kodeordspolynomium er da givet som c(x) = c n x n + + c x + c 0. Da sammenhængen mellem kodeord og de tilsvarende kodeordspolynomier, er stor, vil disse blive behandlet som værende en og samme størrelse. 44

47 5.4. GENERATORPOLYNOMIUM FOR CYKLISKE KODER Højreskift af et kodeord kan også formuleres som en algebraisk omskrivning af kodeordspolynomiet; dette vises i følgende hjælpesætning. Hjælpesætning 5.4 [JH04, Hjælpesætning 6..] Hvis c(x) = c n x n + + c x + c 0 og så ĉ(x) = c n 2 x n + + c 0 x + c n, ĉ(x) = xc(x) c n (x n ). Bevis Ved udskrivning: xc(x) c n (x n ) = c n x n + + c 0 x c n x n + c n = c n 2 x n + c 0 x + c n = ĉ(x), som skulle vises. 5.4 Generatorpolynomium for cykliske koder Definition 5.5 (Generatorpolynomium) Lad C være en cyklisk (n, k)-kode. Det moniske kodeordspolynomium g(x) C af laveste grad kaldes generatorpolynomiet for C. Ovenstående definition er afhængig af generatorpolynomiets entydighed, som blandt andet bevises i det følgende. Sætning 5.5 (Egenskaber for generatorpolynomiet) [JH04, Sætning 6..] Lad C være en cyklisk (n, k)-kode over F q og lad g(x) være et monisk polynomium af lavest grad i C\{0}. Så gælder, i) g(x) er entydigt bestemt ii) g(x) c(x), for alle c C iii) g(x) x n i F q [x] iv) deg(g) = n k. Bevis Ad i): Antag fejlagtigt, at der findes et andet monisk polynomium f(x) af lavest grad i C. Da g(x), f(x) er moniske fås, at deg(g(x) f(x)) < deg(g(x)), og lineariteten af C giver, at g(x) f(x) C, hvilket fører til modstrid. 45

48 KAPITEL 5. REED-SOLOMON-KODER Ad ii): For alle c C gælder det, at det tilsvarende kodeordspolynomium c(x) kan skrives som c(x) = q(x)g(x) + r(x), hvor deg(r) < deg(g). Da deg(q) deg(c) deg(g), følger per Hjælpesætning 5.4 at q(x)g(x) også er et kodeordspolynomium. Fra lineariteten af C har vi derfor, at r også er et kodeordspolynomium, da c(x) q(x)g(x) er et kodeordspolynomium. Men da deg(r) < deg(g) per definition af r, har vi, at r(x) = 0, som skulle vises. Ad iii): Antag, vi har et kodeord c C over F q, hvor c n 0. Sådan et kodeord vil findes, forudsat vi har mindst et ikke-nul kodeord i den cykliske kode: Ved cykliske skift kan vi finde et kodeord, der opfylder c n 0. Vi ved, ĉ C. Eftersom g(x) c(x) og g(x) ĉ(x), følger det af Hjælpesætning 5.4, at g(x) x n. Ad iv): Da g(x) er kodeordspolynomiet af mindste grad i C\{0}, har vi, at k n deg(g). Da C er cyklisk, følger det af Hjælpesætning 5.4, at x j g(x) C for 0 j n deg(g). Da disse n deg(g) kodeord er lineært uafhængige, fås, at k n deg(g), som skulle vises. Sætning 5.6 [JH04, Sætning 6..2] Antag, at g(x) F q [x] er monisk og g(x) x n. Så er C = {i(x)g(x) : i(x) F q [x], deg(i(x)) < n deg(g)} en cyklisk kode. Bevis Lad g(x) og h(x), hvor deg(g(x)) = s, være givet ved g(x) = g 0 + g x + + g s x s + x s, h(x) = xn = h h n s x n s + x n s. g(x) For alle c(x) = i(x)g(x), hvor deg(i) < n s, gælder det, at ĉ C. Dette er en konsekvens af Hjælpesætning 5.4: ĉ(x) kan udskrives til ĉ(x) = xc(x) c n (x n ) = xi(x)g(x) c n (h(x)g(x)) = (xi(x) c n (h(x)))g(x). Bemærk nu, at c s ledende koefficient er i s ledende koefficient, idet g er monisk. Desuden har xi(x) og c n h(x) samme ledende koefficient, da h ligeledes er monisk, hvilket samlet betyder deg(xi(x) c n h(x)) n s. Hermed er ĉ C, som skulle vises. 46

49 5.5. GENERATORMATRIX FOR CYKLISKE KODER 5.5 Generatormatrix for cykliske koder Resultat 5.7 [JH04, Side 65] Lad C være en cyklisk (n, k)-kode over F q, med et generatorpolynomium g(x) = g 0 + g x + + g n k x n k. Så er dim C = k, og generatormatricen for C er givet ved g 0 g g 2 g n k g 0 g g n k g n k 0 0 G = (5.3) g n k Bevis Følger umiddelbart af beviset for Sætning 5.5 iv) samt Definition 3.2. Sætning 5.8 [JH04, Side 65] Lad C være en cyklisk (n, k)-kode over F q med g(x) = g 0 + g x + + g n k x n k som generatorpolynomium, og lad h(x) = xn g(x) = h 0 +h x+ +h k x k. Så er C cyklisk med g (x) = h 0 x k + +h k x+h k, hvilket er palindromet til h(x), som generatorpolynomium, og matricen h k h k h k 2 h h k h k h h H = h 0 som generatormatrix. (5.4) Bevis Fra Sætning 5.5 i) ved vi, at alle kodeord i C kan skrives som produkt af g(x) og et polynomium i F q [x]. Lad c(x) = i(x)g(x), hvor i(x) F q [x] og c(x) C. Fra definitionen af h(x) fås, at g(x)h(x) = x n. Tilsammen giver dette c(x)h(x) = i(x)g(x)h(x) = i(x)(x n ). Eftersom deg(i) < k < n, så er der ingen led i c(x)h(x) af grad k, k +,..., n. Dette udtrykkes af summerne n c i h j i = 0, j = k, k +,..., n, i=0 hvor h l = 0 hvis l < 0. 47

50 KAPITEL 5. REED-SOLOMON-KODER Fra disse summer samt Definition 3.4 fås, at følgende n k lineært uafhængige vektorer (h k, h k,..., h 0, 0,..., 0),..., (0,..., 0, h k, h k,..., h 0 ) danner paritetstjekmatricen for C og generatormatricen for C, givet i (5.4). Da alle rækkerne i H er cykliske skift af palindromet til h(x), genereres C af g (x). 5.6 Vandermonde-matrix Definition 5.6 (Vandermonde-matrix) Lad β F q være et element af orden n og lad x j = β j, j =, 2,..., n. Den kvadratiske matrix x x 2 x n A = x n x n 2 xn n kaldes en Vandermonde-matrix. Sætning 5.9 [JH04, Lemma 5.3.] Lad β F q være et element af orden n og lad x j = β j, j =, 2,..., n. Lad endvidere x x 2 x n x x 2 x n A = og B = x 2 x 2 2 x 2 n x a x a 2 x a n x s x s 2 x s n Hvis så gælder det, at BA T = {0} s (a+). s + a + n, (5.5) Bevis Lad C = {c ir } s (a+) = BA T = {b ij } s n {a rj } (a+) n T. 48

51 5.7. MINIMUMAFSTAND FOR CYKLISKE KODER Da b ij = x i j og a rj = x r j så fås c ir = = = j= j= x i jx r j x i+r j ( β i+r ) j. (5.6) j= Eftersom i a og s = r så følger det af (5.5), at i+r s+a n, og dermed er β i+r, da β har orden n. Da (5.6) er en endelig geometrisk række, kan c ir da omskrives til ( β i+r ) n c ir = β i+r som skulle vises. = (βn ) i+r β i+r = β i+r = 0, 5.7 Minimumafstand for cykliske koder Vi vil nu bevise en sætning, der giver en nedre grænse for minimumafstanden. Det, der gør sætningen interessant er, at den også kan bruges til at konstruere en cyklisk kode ud fra en ønsket minimumafstand: Man vælger en minimumafstand δ, og finder en g med de β-rødder i g, der passer til dette δ. Så følger det, at koden genereret af g har en minimumafstand > d. Sætning 5.0 [JH04, Sætning 6.3.] Lad C være en cyklisk (n, k)-kode over F q med generatorpolynomium g(x). Hvis g(x) blandt sine rødder har β a, β a+,..., β a+δ 2 hvor β F q har orden n, så er d min (C) δ. Bevis Eftersom g(x) er et generatorpolynomium, har vi fra Sætning 5.5, at ethvert kodeord kan skrives som c(x) = i(x)g(x) C, for et polynomium i(x) F q [x], og hvor c(x) = c c n x n. Da β a, β a+,..., β a+δ 2 er rødder i g(x), så gælder der c(β a ) = c ( β a+) = = c(β a+δ 2 ) = 0. 49

52 KAPITEL 5. REED-SOLOMON-KODER En paritetstjekmatrix H er givet ved følgende, β a β 2a β (n )a β a+ β 2(a+) β (n )(a+) H = β a+δ 2 β 2(a+δ 2) β (n )(a+δ 2) fordi Hc = c(β a ) + + c(β a+δ 2 ) = 0 for alle c C. Der vises nu, at en vilkårlig delmatrix af H bestående af δ søjler fra H har et lineært uafhængigt søjlerum. Vælg I = {i,..., i δ } {0,..., n }, i < i 2 < < i δ, og lad x j = β i j. Da fås en delmatrix H I af H ved β ai β ai 2 β a(i δ ) β (a+)i β (a+)i 2 β (a+)i δ H I = β (a+δ 2)i β (a+δ 2)i 2 β (a+δ 2)i δ x a x a 2 x a δ x a+ x a+ 2 x a+ δ = x a+δ 2 x a+δ 2 2 x a+δ 2 δ Tages determinanten af H I, fås x a x a 2 x a δ x a+ x a+ 2 x a+ δ det(h I ) = det x a+δ 2 x a+δ 2 2 x a+δ 2 δ x x 2 x δ = x a x a 2 x a δ det x 2 x 2 2 x 2 δ, x δ 2 x δ 2 2 x δ 2 δ Lad x x 2 x δ H IV = x 2 x 2 2 x 2 δ x δ 2 x δ 2 2 x δ 2 δ 50

53 5.8. CYKLISKE REED-SOLOMON-KODER Da det(h IV ) = det(h IV T ), fås der fra [JH04, Sætning 5.3.], at δ det(h I ) = x a x a 2 x a d (x i x j ) 0, hvor sidste lighed gælder da β i j erne er forskellige og ikke-nul, hvilket gælder, da ord(β) = n, og δ < n. Vi har derfor, at H I består af δ lineært uafhængige søjler. Da dette gælder for vilkårlige δ søjler i H, har vi, at H har mindst δ lineært uafhængige søjler, hvor vi fra [JH04, Hjælpesætning.2.3] kan slutte, at d min (C) δ. i>j 5.8 Cykliske Reed-Solomon-koder Sætning 5. [JH04, Sætning 6.4.] Lad α være et primitivt element i F q, og lad n q og β = α q n. Hvis C er Reed-Solomon-koden med x i = β (i ), i =, 2,..., n, der fås ved at evaluere polynomier i P q (k) = {f(x) F q [x] : deg(f) < k}, så er C en cyklisk (n, k)-kode over F q med generatorpolynomium g(x) = (x β)(x β 2 ) (x β n k ). (5.7) Bevis Ad cyklisk: For alle c C findes et f P q (k) således, at c = ( f(β 0 ), f(β ),..., f(β n ) ). ĉ givet ved ĉ = ( f(β n ), f(β 0 ),..., f(β n 2 ) ) skal også være i C. For f (x) = f(β x), har vi, ĉ = ( f (β 0 ), f (β ),..., f (β n ) ), eftersom β n =. Vi har herved, at C er cyklisk, fordi deg f = deg f < k og dermed f P q (k), hvilket medfører, at ĉ C, som skulle vises. Ad (5.7): Da generatorpolynomiet per Definition 5.5 og Sætning 5.5 er entydigt bestemt som det moniske polynomium i C med grad n k er det nok at vise at g(x) C, da graden af g er n k og g er monisk. Da C er en Reed-Solomon-kode og da x i = β (i ), i =, 2,..., n, har vi som 5

54 KAPITEL 5. REED-SOLOMON-KODER i (5.) i Afsnit 5.2, at paritetstjekmatricen til C er givet ved β β (n ) β 2 β 2(n ) H = β n k β (n k)(n ) Da Hg T = (g(β),..., g(β n k )) = (0,..., 0), er g C, som skulle vises. 5.9 Justesen-koder Definition 5.7 (Justesen-kode) [Jus72, Afsnit 2 og 4] Lad R være en (N, K)-Reed-Solomon-kode over F q m, hvor N = q m. 3 Lad a = (a 0, a,..., a N ) F N qm være et kodeord i R, det vil sige, at a i = b(α i ), 0 i N, hvor α er et primitivt element i F q m og b et kodeordspolynomium i P q m(k). En Justesen-kode J er en kode bestående af kodeord på følgende form c = ( (a 0, α 0 a 0 ), (a, α a ), (a 2, α 2 a 2 ),..., (a N, α N a N ) ), hvor c betragtes som en q-ær 2mN-vektor. J er således en (n, k)-kode, hvor n = 2mN og k = mk. Lad a = (a 0, a,..., a N ) og b = (b 0, b,..., b N ) være to forskellige kodeord i R, der grundlægger kodeordene c a = ( (a 0, α 0 a 0 ), (a, α a ), (a 2, α 2 a 2 ),..., (a N, α N a N ) ) c b = ( (b 0, α 0 b 0 ), (b, α b ), (b 2, α 2 b 2 ),..., (b N, α N b N ) ) i J. Da er c a + c b, givet ved c a + c b = ( (a 0 + b 0, α 0 (a 0 + b 0 )),..., (a N + b N, α N (a N + b N )) ), et ord i J, da c a + c b er grundlagt af a + b, hvilket, da R er lineær, er et kodeord i R. J er derfor lineær. Eftersom R er et lineært underrum af F N q m af dimension K gælder det, at dim(r) = K = dim(f K q m). Endvidere haves, at R = F K q m = F mk q. Fra konstruktionen af J fås, at J = R. Slutteligt, da J betragtes som en kode over F q uden indflydelse på kodens størrelse og da J er et lineær underrum af F 2mN q, har vi, at dim(j ) = dim(f mk q ) = mk. 3 Det vil sige, at R er en cyklisk Reed-Solomon-kode 52

55 5.9. JUSTESEN-KODER Eksempel 5.2 Her vises hvorledes en Justesen-kode konstrueres. Lad R være (7, 3) Reed- Solomon-koden som givet i Eksempel 5., og lad c r = (0, α 3, α 6, α, α 5, α 4, α 2 ) være et kodeord i R. Fra Definition 5.7 fås, at det tilsvarende Justesenkodeord c j J er givet ved (( ) ( ) ( ) ( ) ( ) ( ) ( )) 0 α 3 α 6 α α 5 α 4 α 2 c j = 0 α 3 α α 6 α 2 αα 3 α 5 α 4 α 4 α 5 α 2 α 6 (( ) ( ) ( ) ( ) ( ) ( ) ( )) 0 α 3 α 6 α α 5 α 4 α 2 = 0 α 5 α α 4 α 2 α 2, α hvilket kan betragtes som en N-tupel af q-ære 2m-tupler, det vil sige, en 7-tupel af binære 6-tupler 0 0 = , 0 hvilket igen kan betragtes som den q-ære 2mN-tupel, det vil sige, den binære 42-tupel = (0, 0, 0, 0, 0, 0,,, 0,,,,, 0,, 0,, 0,..., 0, 0,, 0,, 0). Gentages denne proces for de resterende kodeord i R, fås J. [Jus72, Afsnit 3] giver en afkodningsalgoritme for Justesen-koder. Da J er lineær, er det jævnfør Hjælpesætning 3. kun nødvendigt at finde det ikke-nul kodeord med mindst vægt for at finde minimumafstanden af J. Da α genererer hele F q m\{0} og α i, i = 0,..., N derved alle sammen er forskellige, fås, at selvom to ikke-nul indgange a j, a l i Reed-Solomonkodeordet a bag et givet Justesen-kodeord c er ens, så er vektorene (a j, α j a j ) og (a l, α l a l ), som er indgange i c, forskellige i andet koordinat. Vi har fra Sætning 5.2, at der er mindst N K + ikke-nul indgange i a. Tilsammen medfører dette, at der er mindst N K + ikke-nul indgange i c, der alle sammen er forskellige. Da disse betragtes som q-ære 2m-tupler, og da der er et begrænset antal af q-ære 2m-tupler af lav vægt, giver dette anledning til følgende sætning. Sætning 5.2 (Minimumafstand af Justesen-koder) [Bla83, Sætning 7.9.] Lad d være minimumafstanden for en (n, k)-justesenkode J over F q, hvor n = 2mN og k = mk, konstrueret udfra en (N, K)- 53

56 KAPITEL 5. REED-SOLOMON-KODER Reed-Solomon-kode over F q m. Da gælder det, at for alle I der opfylder d I ( 2m i(q ) i i ), I ( ) 2m (q ) i N K +. i Bevis Et kodeord c af mindst vægt i J har N K + forskellige ikke-nul indgange. Disse indgange repræsenteres som forskellige q-ære 2m-tupler. Den samlede vægt af disse forskellige q-ære 2m-tupler er mindst lige så stor som den samlede vægt af de forskellige q-ære 2m-tupler af mindst vægt. Der er ( ) 2m i forskellige måder at konstruere en 2m-tupel med i ikke-nul indgange og q forskellige valg af ikke-nul elementer for hver indgang i hver 2m-tupel. Heraf følger det, at der for hvert I der opfylder I ( ) 2m (q ) i N K + (5.8) i gælder, at alle 2m-tupler forskellige fra 0 af vægt I repræsenterer hver en indgang i c. Da Justesen-koden er lineær, gælder det fra Hjælpesætning 3., at minimumafstanden d er den mindste vægt af et ikke-nul ord, hvilket giver d for ethvert I, der opfylder (5.8). I ( 2m i(q ) i i Sætning 5.2 kan let benyttes til at opnå en større nedre grænse for minimumafstanden. Resultat 5.3 Lad d være defineret som i Sætning 5.2. Endvidere, lad ), f(x) = g(x) = I ( ) 2m (q ) i i I ( ) 2m i(q ) i, i 54

57 5.9. JUSTESEN-KODER og I max = max{i : f(i) N K + }. Da gælder det, at d g(i max ) + (I max + )(N K + f(i max )). Bevis Følger af Sætning 5.2. Vi vil nu vise, at Justesen-koder er asymptotisk gode. Selvom Sætning 5.2 og Følgesætning 5.3 udtrykker en nedre grænse for minimumafstanden af en Justesen-kode og derved giver en idé om det asymptotiske adfærd i bloklængden, så er binomialkoefficienterne i grænserne svære at evaluere for store N. Vi tager derfor en anden tilgang, der forudsætter, at Justesen-koderne er binære, og som benytter sig af et tidligere bevist resultat, Sætning 4.4, der udtrykker en bestemt øvre grænse for en binomialkoefficient. Hjælpesætning 5.4 [Bla83, Sætning 7.9.3] Givet M forskellige binære 2m-vektorer er deres samlede vægt V ( V λ2m M 2 2mH(λ)), for alle 0 λ 2. Bevis For antallet af 2m-tupler med vægt højst λ2m, gælder fra Sætning 4.4, at λ2m k=0 ( ) 2m 2 2mH(λ), k hvor 0 λ 2. For et givet λ findes der mindst M 22mH(λ) ord med vægt højere end λ2m. Den samlede vægt er således nedadtil begrænset ved ( V λ2m M 2 2mH(λ)). Sætning 5.5 (Justesen) [Bla83, Sætning 7.9.4] For et given R hvor 0 < R < 2 og et m N hvor m > 2, lad K = 2NR. Lad J være den binære (n, k) Justesen-kode med n = 2mN og k = mk, konstrueret udfra en (N, K)-Reed-Solomon-kode med N = 2 m. Da har J en kommunikationshastighed R m R, og minimumafstand d m, der opfylder ( ) ) d m (H n ( 2R) 2 o(), 2 hvor H2 er defineret ved H 2 (y) = x H 2(x) = y for 0 < x < 2, og hvor o(x) o(g(x)) betyder o(x) 0 når x. g(x) 55

58 KAPITEL 5. REED-SOLOMON-KODER Bevis Da K = 2NR > 2NR og R < 2 fås, at der for kommunikationshastigheden R m = mk 2mN = K 2N gælder, at R m > R. Lad c være et ikke-nul kodeord i J, det vil sige, at c har N K + forskellige ikke-nul 2m-tupler. Bemærk ( N K + = N K ) ( N 2NR + ) = N( 2R). N N Vælg nu N( 2R) af c s 2m-tupler. For disse gælder Hjælpesætning 5.4, og da d m N K + fås ( ) d m λ2m N( 2R) 2 2mH 2(λ), for ethvert λ, 0 λ 2. Heraf følger Lad d m n λ( 2R) ( 22mH 2(λ) N( 2R) ). (5.9) ( ) λ = H2 2. (5.0) log 2 2m Da H2 er kontinuert, går λ H2 ( 2 ) for m. Udtrykket kan derved erstattes med en passende funktion o(m) o(), hvorfor ( ) λ = H2 o(m). (5.) 2 Fra (5.9) haves nu d m n ( 2R)λ 22m 2 log 2 2m N( 2R) ( 2m ) = ( 2R)λ 2m log 2 2m. N( 2R) Da N = 2 m fås d m n ( 2R)λ ( = ( 2R)λ ( 2m ) m 2 log 2 2m (2 m )( 2R) 2m m 2 log 2 2m 2 m 2R2 m + 2R ). Ved at lade 2 m c = 2 m 2R2 m + 2R, 0 < c <, 56

59 5.9. JUSTESEN-KODER ses det, at d m n ( 2R)λ ( 2m log 2 2m 2m 2 m c ). (5.2) Således gælder det for den sidste parentes i (5.2), at Og da og så 2m log 2 2m 2m 2 m c = 2m 2m log 2 2m m 2m, m, log 2 2m c ( 2R), m, 2m log 2 2m c = 2 2m log 2 2m 2, m. c Da dette leds bidrag til (5.2) går mod 0, er det muligt efter indsættelse af (5.) i (5.2) at erstatte o med et passende o o() uden at overskride uligheden. Slutteligt haves ( ) ) d m (H n ( 2R) 2 o (m). 2 Således har vi nu vist, at forholdet mellem minimumafstanden og bloklængden for Justesen-koder altid er større end eller lig et ikke-nul udtryk, for bloklængden gående mod uendelig. Justesen-koder er dermed asymptotiske gode koder. Således kan Justesen-koder med en kommunikationshastighed mellem 0 og 2 konstrueres, som kan rette vilkårligt mange fejl i træk. På Figur 5. er den nedre grænse for Justesen-koder afbilledet sammen med Varshamov-Gilbert-grænsen. Hvis det ønskes, kan kommunikationshastigheden for Justesen-koder forbedres ved såkaldt at punktere koden. Som nævnt ser et Justesen-kodeord således ud c = ( (a 0, α 0 a 0 ), (a, α a ), (a 2, α 2 a 2 ),..., (a N, α N a N ) ). Ved at forkorte alle de binære indgange i kodeordet, som har denne form α i a i, 0 i N, med et fast antal bits opnåes en højere kommunikationshastighed, men også en ringere fejlretningsevne. Dog kan det vises, at ratio en mellem minimumafstanden og bloklængden stadig er større end eller lig et ikke-nul udtryk. Dette vil ikke blive vist her. c. 57

60 KAPITEL 5. REED-SOLOMON-KODER 0,5 d m n 0,4 0,3 0,2 Varshamov-Gilbert-grænsen 0, Justesen 0,5,0 Figur 5.: Den nedre grænse for Justesen-koder sammenlignet med Varshamov-Gilbert-grænsen. R 58

61 KAPITEL 6 Kombineret kildeog kanalkodning Fejlrettende koder virker generelt bedre, når kommunikationshastigheden bliver lavere i forhold til kanalkapaciteten. Hvis en kildetekst kan indkodes, så den nødvendige kommunikationshastighed reduceres, kan man bruge dette til at lave en kombineret kode der, for den samme kilde og kanal, kan rette flere fejl end en tilsvarende kanalkode alene. 6. Kildekodning Kildekodning handler om koder, hvis formål ikke er at kompensere for kanalers støj, men derimod at oversætte kildetekster til kortere kildetekster, uden tab af information. Man bruger derfor ikke blokkoder til kildekodning, hvilket vil sige, at det tillades, at en kode indeholder kodeord af variabel længde. Definition 6. (r-ær kode) [Rom92, Side 39] Lad A være et kodealfabet. En r-ær kode C består af strenge over A kaldt kodeord, hvor r betegner størrelsen af kodealfabetet. Vi vil normalt lade kodealfabeter bestå af naturlige tal; eksempelvis får en binær kode alfabetet {0, }. 59

62 KAPITEL 6. KOMBINERET KILDE- OG KANALKODNING 6.2 Præfikskode Definition 6.2 (Entydig kode) [Rom92, Side 42] En kode C kaldes entydig, hvis det for alle kodeord c,..., c k, d,..., d j C gælder, at når c c k = d d j så er k = j, og c i = d i for i =,..., n Efterfølgende vil kun entydige koder tages i betragtning. Definition 6.3 (Momentan kode) [Rom92, Side 43] En kode kaldes momentan, hvis enhver vilkårlig strøm af kodeord i koden kan afkodes i flugten. Momentane koder er entydige. Dog eksisterer der entydige koder, der ikke kan afkodes i flugten, og som derved ikke er momentane. Definition 6.4 (Præfikskode) [Rom92, Side 43] En kode C kaldes en præfikskode, hvis for ethvert kodeord c = x x 2 x n C gælder, at ĉ = x x 2 x k / C for k < n. En præfikskode siges at have præfiksegenskaben. Sætning 6. En kode C er momentan, hvis og kun hvis den har præfiksegenskaben. Bevis Ad C har præfiksegenskaben: Lad C være momentan, og antag fejlagtigt, at C ikke har præfiksegenskaben. Da C ikke har præfiksegenskaben må der i følge Definition 6.4 findes ord c a = c c n og c b = c c k i C hvor k < n. Dette medfører, at c b ikke kan afkodes i flugten, hvilket giver modstrid. Ad C er momentan: Lad C have præfiksegenskaben, det vil sige, hvis c = c c n C, så c c k / C for k < n. Antag, at C ikke er momentan. Så findes der et kodeord c c m C som er en del af c for m < n hvilket er i modstrid med, at C har præfiksegenskaben. 6.3 Krafts ulighed Sætning 6.2 (Krafts sætning) [Rom92, Sætning 2..2] Med andre ord; i løbet af afkodningen, fra venstre mod højre, kan hvert kodeord genkendes som kodeord straks det er set, uden at senere kodesymboler skal betragtes. 60

63 6.3. KRAFTS ULIGHED i) Hvis C er en r-ær præfikskode med ordlængder l, l 2,..., l n, så opfylder disse ordlængder Krafts ulighed r l k k=. (6.) ii) Hvis l, l 2,..., l n, r N tilfredsstiller Krafts ulighed, så findes der en r-ær præfikskode med ordlængder l, l 2,..., l n. Bevis Ad i): Antag, at C = {c,..., c n } er en r-ær præfikskode med ordlængder l, l 2,..., l n. Der skal vises, at Krafts ulighed (6.) gælder. Lad L betegne længden af det længste kodeord i C, og k være antallet af kodeord af længde L. Hvis c i = x x li C, så gælder ĉ = x x li y li + y L / C, (6.2) for alle vilkårlige kodesymboler y i, eftersom c i er et præfiks af ĉ. Der er r L l i forskellige ord på formen (6.2) for et givet c i og l i hvor l i < L. Antallet af ord af længde L, der ikke kan være i koden, da præfiksegenskaben skal overholdes, er dermed ( r L l i ) k = ( r L r l i ) k. Da r L er det totale antal ord af længde L og da der er k ord af længde L i koden, har vi, at (( ) ) r L r L k k, r l i hvilket er ækvivalent med Krafts ulighed. Ad ii): Antag, at l, l 2,..., l n, r N tilfredsstiller Krafts ulighed. Vi viser hvilke betingelser, der skal gælde for en r-ær momentan kode C med ordlængder l, l 2,..., l n. Lad α j betegne antallet af l i er lig j, og lad m betegne længden af det længste l i, hvor i n. Hvis α r, kan der vælges α kodeord af længde. α 2 bestemmes ud fra α da der kræves, at C er momentan. Dette medfører, at de første α r ord af længde 2 ikke kan bruges som kodeord, hvilket giver r 2 α r mulige kodeord af længde 2, hvor r 2 er det totale antal ord af længde 2. Derved, for at enhver ordlængde, der er lig 6

64 KAPITEL 6. KOMBINERET KILDE- OG KANALKODNING 2 får et passende kodeord i koden, skal α 2 r 2 α r. Fortsættes dette, fås α r α 2 r 2 α r α 3 r 3 α r 2 α 2 r. α m r m α r m α 2 r m 2 α m r. Hvis den nederste ulighed gælder, så gælder de øvrige også. Det er derfor tilstrækkeligt at opfylde denne for at kunne konstruere C. Ved omskrivning følger α r + α 2 r α m r m + α m r m, hvilket er Krafts ulighed. Opfyldelse af Krafts ulighed medfører derfor opfyldelse af hele systemet af uligheder, hvilket medfører eksistensen af den ønskede r-ære præfikskode C. 6.4 McMillans sætning Sætning 6.3 (McMillans Sætning) [Rom92, Sætning 2..3] Hvis C er en entydig r-ær kode med ordlængder l, l 2,..., l n, så gælder Krafts ulighed k= r l k. Bevis Antag, at α k er antal kodeord af længde k i C, og lad m være den største forekommende ordlængde. Så har vi r l k k= = m k= α k r k, idet vi bemærker, at der i summen på venstre side indgår α k led af størrelse r k, for alle ordlængder k. Lad u Z + og betragt ( m k= α k r k ) u = ( α r + α 2 r α m r m ) u. 62

65 6.4. MCMILLANS SÆTNING Vi multiplicerer ud til i,i 2,...,i u i j m α i r i αi u r iu = i,i 2,...,i u i j m α i α i2 α iu r i + +i u. Da i j m, ligger hver sum i + + i u mellem u og um. Vi samler led med samme sum i + + i u og får hvor = um k=m i + +i u=k N k = α i α i2 α iu um r k = i + +i u=k α i α i2 α iu. k=u N k r k, Vi benytter nu, at koden er entydig: Da α i er antal kodeord i C af længde i, har vi, at α i α i2 α iu er antal af mulige strenge med længde k = i + +i u bestående af et kodeord af længde i efterfulgt af et kodeord af længde i 2 og så videre, hvor strengen slutter med et kodeord af længde i u. Summen N k er derfor det totale antal strenge c c u af længde k bestående af nøjagtig u kodeord. Lad N k være mængden af sådanne strenge, det vil sige; N k = {c c u c i C, Len(c c u ) = k}. Nu har vi N k = N k. Hver streng c c u N k er en streng af længde k over det r-ære alfabet A, det vil sige et medlem af A k A. Der findes r k strenge i A k, og da C er entydig kan forskellige elementer i N k ikke give den samme streng i A k. Det vil sige, N k r k og dermed ( m k= α k r k ) u um k=u N k r k um um. k=u Vi tager den u te rod, og får m k= α k r k u/u m /u. Da dette er opfyldt for alle u Z +, kan vi lade u gå mod uendelig. For 63

66 KAPITEL 6. KOMBINERET KILDE- OG KANALKODNING u har vi u /u m /u, og vi får, som skulle vises. m k= α k r k, Selv om ordlængderne l,..., l n til en given r-ær kode C opfylder Krafts ulighed, så betyder det hverken, at C er entydig eller præfiks, da Sætning 6.2 i) og Sætning 6.3 intet siger om en given kode som l,..., l n er ordlængder for. 6.5 Huffman-kodning Definition 6.5 (Middelordlængde) For et kodningsskema (c,..., c n ) med sandsynlighedsfordeling (p,..., p n ) er middelordlængden givet ved AveLen(c,..., c n ) = p i c i. Definition 6.6 (Mindste middelordlængde) Lad C n være mængden af entydige r-ære kodningsskemaer med n kodeord. For en sandsynlighedsfordeling (p,..., p n ) defineres den mindste middelordlængde som MinAveLen r (p,..., p n ) = min (c,...,c n) C n AveLen(c,..., c n ). Definition 6.7 (Optimal kode) Et optimalt r-ært kodningsskema for en sandsynlighedsfordeling (p,..., p n ) er et r-ært momentant kodningsskema (c,..., c n ), hvorom der gælder AveLen(c,..., c n ) = MinAveLen r (p,..., p n ). Følgende sætning bruges til at vise, at Huffman-algoritmen, som introduceres senere, laver en optimal kode: Sætning 6.4 Lad P = (p, p 2,..., p n ) være en sandsynlighedsfordeling, for hvilken p p 2 p n og lad s være bestemt ved s n mod (r ) hvor 2 s r. Så eksisterer et optimalt r-ært kodningsskema C for P, der opfylder i) De sidste s kodeord har maksimal længde. 64

67 6.5. HUFFMAN-KODNING ii) De sidste s kodeord er på formen d0, d,..., d(s ), og ingen andre kodeord har d som præfiks. iii) Der gælder, at MinAveLen r (p,..., p n ) = MinAveLen r (p,..., p n s, q) + q hvor q = p n s+ + + p n. Bevis Vi antager, vi har en optimal kode C for P. Ud fra denne vil vi konstruere en kode med samme middelordlængde der opfylder i), ii), og iii). Ad i): Vi har, at der til P er tildelt ordlængder l l 2 l n = L, og definerer herfra K = n r l i. Fra Krafts ulighed, Sætning 6.2, har vi, K, og da C er optimal, kan vi ved at fjerne det længste ord, og erstatte det med et ord der er kortere få en kode med kortere middelordlængde end C, hvis ellers Krafts ulighed stadigt havde været opfyldt, men da C er optimal er dette en modstrid, og Krafts ulighed kan derfor ikke være opfyldt, vi har derfor at K r L +r (L ) >. Dette kan omskrives til r L r + < r L K r L, og der findes derfor et α {2,..., r}, således at r L K = r L r + α. (6.3) Da r L l i mod (r ) per [Lau03, Udsagn.3.4 (ii)], har vi r L K = r L l i n mod (r ). Det følger af r L r 0 mod (r ) og (6.3), at α n mod (r ). Heraf følger det, at α = s, da α s mod (r ) og 2 α r. Lad k være antal kodeord af maksimal længde. Vi har n k r L K = r L l i + i=n k+ k mod r, der sammen med (6.3), hvor α = s giver k s mod r, fordi r L K = r L r + s s mod r, 65

68 KAPITEL 6. KOMBINERET KILDE- OG KANALKODNING og dermed findes der et t {0,, 2,...} der opfylder k = s+tr. Vi har derfor mindst s kodeord af maksimal længde. Da koden er optimal, ved vi, at de s mindst sandsynlige kodeord har maksimal længde, som skulle vises. Ad ii): Det følger af Sætning 6.3 og Sætning 6.2, at der for en entydig kode findes en tilsvarende præfikskode med de samme ordlængder. Forudsat passende tildeling af kodeord til kildesymboler, vil præfikskoden have den samme middelordlængde. Vi har fra i), at der er k = s + tr ord med maksimal ordlængde. For ethvert præfiks af længde L kan der konstrueres r kodeord af længde L. De sidste k kodeord kan dermed organiseres således, at der for et enkelt præfiks d findes s kodeord og der for hver af de resterende præfiks findes r, som skulle vises. Ad iii): Vælg en optimal kode D for p,..., p n s og forlæng det sidste kodeord d til d0, d,..., d(s ). Dette giver en kode C for p,..., p n, og vi har MinAveLen(p,..., p n ) AveLen(C) = AveLen(D) q d + = AveLen(D) + q s q( d + ) = MinAveLen(p,..., p n s, q) + q. (6.4) Vælg nu en optimal kode C for p,..., p n, hvor C opfylder i) og ii). Ved at slå de sidste s kodeord sammen til et kodeord af længde d får vi en kode D for p,..., p n s, q, hvor q = p n s+ + + p n, og vi har MinAveLen(p,..., p n ) = AveLen(C ) = AveLen(D ) + q( d + ) q d = AveLen(D ) + q MinAveLen(p,..., p n s, q) + q. (6.5) Fra (6.4) og (6.5) følger detnu, at som skulle vises. MinAveLen(p,..., p n ) = MinAveLen(p,..., p n s, q) + q, Resultat 6.5 Lad P = (p, p 2,..., p n ) være en sandsynlighedsfordeling, for hvilken p p 2 p n, lad s være bestemt ved s n mod (r ) hvor 2 s r og lad q = p n s+ + + p n. 66

69 6.5. HUFFMAN-KODNING Hvis D = (c,..., c n s, d) er et optimalt r-ært kodningsskema for Q = (p,..., p n s, q), så er C = (c,..., c n s, d0, d,..., d(s )) et optimalt r-ært kodningsskema for P. Definition 6.8 (Huffman-kode) Lad P = (p,..., p n ) være en sandsynlighedsfordeling for koden C = {c,..., c n }, så kaldes C for en r-ær Huffman-kode for P, hvis den kan konstrueres af Algoritme 6.. Algoritme 6.: Konstruktion af en r-ær Huffman-kode Input: En sandsynlighedsfordeling P = (p,..., p n ) Resultat: En tildeling af kodeord C = (c,..., c n ) hvis n r så Lad C = (0,,..., n ) ellers Omnummerer om nødvendigt P så p p 2 p n Bestem s så 2 s r og s n mod (r ) Lad Q = (p,..., p n s, q), hvor q = p n s+ + + p n Udfør algoritmen rekursivt på Q med resultat D = (c,..., c n s, d) Lad C = (c,..., c n s, d0, d,..., d(s )) returner C Sætning 6.6 En r-ær Huffman-kode er en optimal r-ær kode for en given sandsynlighedsfordeling P. Bevis Beviset foregår per induktion over antal udfald i sandsynlighedsfordelingen P. Basistrin: For P = (p,..., p n ), hvor n r tildeler algoritmen ord af længde til alle sandsynligheder. Induktionstrin: Vi antager, algoritmen kan lave en optimal kode for en sandsynlighedsfordeling med n s elementer og viser, den kan for n elementer. Sætning 6.4 beskriver en bestemt optimal kode for en sandsynlighedsfordeling med n elementer, givet en optimal kode for en (bestemt) sandsynlighedsfordeling med n s elementer. Denne konstrueres af Algoritme

70 KAPITEL 6. KOMBINERET KILDE- OG KANALKODNING 6.6 Jensens ulighed Definition 6.9 (Konvekse funktioner) En funktion f : (a, b) R kaldes konveks, hvis alle korder ligger over funktionens billedkurve. Det være sig, for alle x, x 2 (a, b) opfylder alle 0 λ, at f(λx + ( λ)x 2 ) λf(x ) + ( λ)f(x 2 ). Definition 6.0 (Strengt konvekse funktioner) En funktion f : (a, b) R kaldes strengt konveks, hvis alle korder ligger over funktionens billedkurve uden at skære billedkurven andre steder end i endepunkterne. Det være sig, for alle x x 2 (a, b) opfylder alle 0 < λ <, at f(λx + ( λ)x 2 ) < λf(x ) + ( λ)f(x 2 ). Sætning 6.7 (Jensens ulighed) Lad X være en diskret stokastisk variabel og lad f : (a, b) R. i) Hvis f er konveks, gælder Jensens ulighed, E [f(x)] f(e [X]). (6.6) ii) Hvis f desuden er strengt konveks, gælder der lighed i (6.6), hvis og kun hvis X er konstant. Bevis Ad i): Hvis X =, er Jensens ulighed trivielt opfyldt med lighed. Antag derfor, at X > og lad p(x) = Pr (X = x). Basistrin: For X = 2 følger Jensens ulighed direkte af Definition 6.9 for λ = p(x ) og λ = p(x 2 ), p(x )f(x ) + p(x 2 )f(x 2 ) f(p(x )x + p(x 2 )x 2 ). Induktionstrin: Lad X = n + og antag, at (6.6) gælder for X = n. Definer nu p p i i =, i =,..., n, p n+ hvor p i = p(x i ). Per antagelse har vi derfor, at 68 ( ) p if(x i ) f p ix i (6.7)

71 6.6. JENSENS ULIGHED Per Definition 6.9 gælder det, at ( ( ( p n+ )f p ix i )+p n+ f(x n+ ) f ( p n+ ) hvilket er det samme som ( ) ( p n+ )f p ix i + p n+ f(x n+ ) f Ved indsættelse af (6.7) i (6.8) følger det, at ( p n+ ) p if(x i ) + p n+ f(x n+ ) f hvilket er ensbetydende med som skulle vises. n+ p i f(x i ) f ( n+ ) p i x i, ) p ix i + p n+ x n, ( n+ ) p i x i. (6.8) ( n+ ) p i x i, Ad ii): Igen, hvis X = er Jensens ulighed trivielt opfyldt med lighed. Antag nu, at X ikke er konstant, det vil sige X >, og antag så fejlagtigt at der gælder lighed i (6.6). I det følgende vises det per induktion over X, at dette giver modstrid for alle X >. Basistrin: Lad X = 2. Per Definition 6.0 har vi p(x )f(x ) + ( p(x ))f(x 2 ) > f(p(x )x + ( p(x ))x 2 ), da 0 < p(x ) <. Induktionstrin: Lad X = n + og antag, at der for alle X, hvor X = n >, gælder ulighed i (6.6). Antag fejlagtigt, at der gælder lighed i (6.6) for X, det vil sige ( ) p i f(x i ) + p n+ f(x n+ ) = f p i x i + p n+ x n+. Vi definerer p i = p i p n+, i =,..., n, 69

72 KAPITEL 6. KOMBINERET KILDE- OG KANALKODNING hvor p i = p(x i ). Derved fås ( p n+ ) ( p if(x i )+p n+ f(x n+ ) = f ( p n+ ) Fra i) haves det, at og ved indsættelse fås, at ( ) p if(x i ) f p ix i, ( ( ( p n+ )f p ix i )+p n+ f(x n+ ) f ( p n+ ) ) p ix i + p n+ x n+. (6.9) ) p ix i + p n+ x n+. (6.0) Det følger af i), at (6.6) gælder i (6.0), og vi opnår dermed lighed. Vi får da fra (6.9), at ( ) p if(x i ) = f p ix i, hvilket er i modstrid med, der gælder ulighed for alle X hvor X = n, som skulle vises. 6.7 Gibbs ulighed Gibbs ulighed er også kendt som informationsuligheden. Sætning 6.8 (Gibbs ulighed) Lad X være en stokastisk variabel med værdimængde X og lad p og q være frekvensfunktioner for X. Da er den relative entropi mindst nul; D(p q) 0. (6.) Endvidere gælder lighed i (6.), hvis og kun hvis p(x) = q(x) for alle x X. Bevis Ad (6.): Antag, at p(x) = Pr (X = x). Lad f(u) = log u. 70

73 6.8. KILDEKODNINGSSÆTNINGEN Definitionen af relativ entropi, Definition 2.4, giver direkte, at D(p q) = p(x) log p(x) q(x) x X [ ( )] q(x) = E f. p(x) Ved anvendelse af Jensens ulighed, Sætning 6.7, følger det at ( [ ]) q(x) D(p q) f E p(x) ( ) = f p(x) q(x) p(x) som skulle vises. x X = log = 0, Ad lighed er ensbetydende med ens fordelinger: Fra Sætning 6.7 ii) gælder der lighed, hvis og kun hvis p(x) q(x) er konstant for alle x X, hvilket er ensbetydende med, at p(x) = q(x) for alle x X. 6.8 Kildekodningssætningen For at bevise kildekodningssætningen viser vi først en hjælpesætning: Hjælpesætning 6.9 Hvis C = (c,..., c n ) er en momentan kode med sandsynlighedsfordeling P = (p,..., p n ), så gælder, H r (p,..., p n ) AveLen r (c,..., c n ). (6.2) Endvidere gælder lighed, hvis og kun hvis Len(c i ) = log r ( p i ). Bevis Ad (6.2): Lad K = r l i og q i = Kr l, for i =,..., n, (6.3) i således får vi n q i =, og q,..., q n kan nu betragtes som en sandsynlighedsfordeling for koden C. Fra Gibbs ulighed, Sætning 6.8, haves det, at den relative entropi er større eller lig nul, det vil sige p i log p i 0. (6.4) q i 7

74 KAPITEL 6. KOMBINERET KILDE- OG KANALKODNING Som følge af produktreglen for logaritmefunktionen er ovenstående ensbetydende med p i log p i log. q i p i Per definition af q i erne, (6.3), er dette ensbetydende med p i log Kr l i p i log. p i Vælger vi grundtal r følger det af ovenstående og produktreglen for logaritmefunktionen, at p i l i + log r K H r (p,..., p n ). (6.5) Da C er momentan følger det af Sætning 6., at Krafts ulighed, Sætning 6.2, gælder, og derfor er K. Da K er log r K 0, og det følger derfor af (6.5), at p i l i H r (p,..., p n ), som skulle vises. Ad lighed: For at der skal gælde lighed i (6.2), er det nødvendigt og tilstrækkeligt, at der gælder lighed i (6.5), hvilket kun er muligt, når K=. Antag derfor, at K =, og dermed q i = r l i. Der gælder nu lighed i (6.5), hvis og kun hvis der gælder lighed i (6.4). Det følger af Gibbs ulighed, Sætning 6.8, at der gælder lighed i (6.4), hvis og kun hvis p i = q i for i =,..., n. Antag derfor, at p i = q i for i =,..., n. Per antagelse K = gælder det, at p i = q i = r l i for i =,..., n, og resultatet følger ved at tage logaritmen med grundtal r til den reciprokke ligning; log r p i = l i, som skulle vises. Sætning 6.0 (Kildekodningssætning) [Rom92, Sætning 2.3.2] For enhver sandsynlighedsfordeling P = (p,..., p n ) gælder H r (p,..., p n ) MinAveLen r (p,..., p n ) < H r (p,..., p n ) + Bevis Lad der være en kilde med sandsynlighedsfordeling p,..., p n, og en r-ær kode C = c,..., c n, hvor c i A. 72

75 6.9. ENTROPIHASTIGHED Hvis p i = r, så er l l i i = log r p i, og det er derfor klart, at l i derfor l i log r p i +. log r p i, og Vi bruger nu vurderingen l i log r p i + til at vurdere den gennemsnitlige kodeordslængde opad AveLen(C) = = p i l i ( ) p i log r + p i p i log r p i + p i = H r (p,..., p n ) +. (6.6) Konklusionen følger nu af ovenstående ulighed og Hjælpesætning Entropihastighed Definition 6. (Entropihastighed) For en stokastisk proces X = {X i } n defineres entropihastigheden som når grænsen eksisterer. H(X ) = lim n H(X,..., X n ), n 6.0 Kilde-kanalkodningssætningen Kildekodningssætningen, Sætning 6.0, giver os mulighed for at komprimere vores data, forudsat R > H. Kanalkodningssætningen, Sætning 2.6, giver os, vi over diskrete hukommelsesfrie kanaler kan kommunikere med fejlsandsynlighed gående mod 0, når R < C Resultaterne kombineres her, hvor vi viser, der for kilder med et endeligt alfabet, der opfylder AEP, findes en kombineret kilde-kanalkodning med fejlsandsynlighed gående mod 0, så længe H < C. AEP for uendelige følger af stokastiske variable {X n } n betyder, at ( ) lim Pr X n A (n) n ɛ =. (6.7) Sætning 6. (Kilde-kanalkodningssætningen) [CT06, Sætning 7.3.] 73

76 KAPITEL 6. KOMBINERET KILDE- OG KANALKODNING i) Lad V = {V n } n være en kilde, hvorom det gælder, at kildealfabetet for V n V er konstant, V opfylder AEP, og entropiraten H(V) eksisterer. Hvis H(V) < C, så findes en kilde-kanalkode for V n = V,..., V n med fejlsandsynlighed Pr( ˆV n V n ) 0. ii) Modsat, for enhver stationær stokastisk proces V gælder det, at hvis entropihastigheden H(V) > C, så er grænseværdien for Pr( ˆV n V n ) > 0 ved kommunikation over en hukommelsesfri kanal (X, p(y x), Y) med kanalkapacitet C. Bevis Ad i): Da V opfylder AEP, har vi en mængde af typiske følger A (n) ɛ som udfald med stor sandsynlighed tilhører. Med nøjagtig samme fremgangsmåde som i Sætning 2.5 ii) kan det vises, at A ɛ (n) 2 n(h(v)+ɛ). De typiske følger af længde n kan derfor indekseres med n(h(v) + ɛ) bits. Vi indkoder de typiske følger til deres indeks ved en enumerering af A ɛ (n) og laver fejl ved de ikke-typiske følger. Fra (2.8) i beviset for Sætning 2.5 haves det, at lim Pr(V n A (n) n ɛ ) =, og følgelig gælder det for store n, at Pr(V n A (n) ɛ ) > ɛ, (6.8) hvoraf det følger, at denne enumereringsindkodning bidrager med højest ɛ til fejlsandsynligheden for store n. Det vil sige, at Pr( ˆV n V n, V n / A (n) ɛ ) = Pr(V n / A ɛ (n) ) < ɛ, (6.9) for store n, idet Pr( ˆV n V n V n / A (n) ɛ ) =. Fra kanalkodningssætningen (Sætning 2.6) har vi, at når H(V)+ɛ = R < C, så kan indeks overføres korrekt med fejlsandsynlighed mindre end ɛ for store n. Derfor er Pr( ˆV n V n V n A (n) ɛ ) < ɛ for store n, og fra (6.8) følger det derfor, at Pr( ˆV n V n, V n A (n) ɛ ) < ɛ( ɛ) < ɛ, (6.20) for store n. For store n gælder det som følge af (6.9) og (6.20), at Pr( ˆV n V n ) = Pr( ˆV n V n, V n / A ɛ (n) ) + Pr( ˆV n V n, V n A (n) ɛ ) < ɛ + ɛ = 2ɛ, 74

77 6.0. KILDE-KANALKODNINGSSÆTNINGEN som skulle vises. Ad ii): Det er nok at vise, at Pr( ˆV n V n ) 0 når n går mod uendelig medfører, at H(V) C. Antag derfor, at Ved hjælp af (2.2) i Afsnit 2.3 fås lim Pr( ˆV n V n ) = 0. (6.2) n H(V, V 2,..., V n ) = H(V n ) = H(V n ˆV n ) + I(V n ; ˆV n ). (6.22) Fra Fanos ulighed, Sætning 4.5, følger det, at H(V n ˆV n ) H(Pr( ˆV n V n )) + Pr( ˆV n V n ) log( V n ) + Pr( ˆV n V n )n log V. Ved anvendelse af ovenstående i (6.22) haves derfor H(V, V 2,..., V n ) + Pr( ˆV n V n )n log V + I(V n ; ˆV n ). Da V n X n Y n ˆV n er en Markov-kæde følger det af dataprocesseringsuligheden ([CT06, Sætning 2.8.]) at H(V, V 2,..., V n ) + Pr( ˆV n V n )n log V + I(X n ; Y n ). Da kanalen er hukommelsesfri med kapacitet C, X n som indgangsvariabel og Y n som udgangsvariabel, følger det af Hjælpesætning 2.4, at H(V, V 2,..., V n ) + Pr( ˆV n V n )n log V + nc. (6.23) Ved at dele (6.23) med n og lade n gå mod uendelig følger det per antagelse (6.2), at H(V, V 2,..., V n ) lim = H(V) n n lim n n + Pr( ˆV n V n ) log V + C = C, som skulle vises. 75

78

79 BILAG A Entropi Informationsentropi er en funktion H af sandsynlighedsfordelinger, der udtrykker usikkerheden associeret med en stokastisk variabel. For en sandsynlighedsfordeling p(s) af en given kilde S = (S, p) udtrykker H(p(S)) usikkerheden involveret i udtrækning fra S. H indføres her aksiomatisk. For at udtrykke den førnævnte usikkerhed passende, skal H opfylde en række betingelser. H skal være defineret på alle {p,..., p n } = P [0, ] for n N, hvor p + + p n =. H(P ) = 0, når der for et p i gælder, at p i =, for så er der ingen usikkerhed involveret i udtrækning. Usikkerheden bliver højere, jo tættere P er på en uniform sandsynlighedsfordeling, samt jo flere udfald en uniform sandsynlighedsfordeling har. H skal være kontinuert, idet små forandringer i P bør resultere i små forandringer i usikkerheden. Til sidst, hvis et forsøg omformuleres til et sammensat forsøg, skal dette ikke have indflydelse på resultatet fra H, da den usikkerhed, der er involveret i udtrækning fra S, ikke ændres. [Rom92, Sætning..], som vi nu vil bevise, fortæller, at der er en bestem form af funktioner, der opfylder disse betingelser. Sætning A. (Egenskaber ved entropifunktionen) Funktionen H : [0, ] n R, hvor n N, opfylder følgende betingelser: i) H(p,..., p n ) er veldefineret og kontinuert for alle p,... p n der opfylder 0 p i, n p i =. ii) H ( n,..., ) ( ) n < H n+,..., n+ for alle n Z +. 77

80 BILAG A. ENTROPI iii) For b i Z +, k b i = n, gælder det, at H ( n,..., ) ( b = H n n,..., b ) k + n k ( b i n H,..., ), b i b i hvis og kun hvis, H kan skrives som H b (p,..., p n ) = p i log b p i, (A.) hvor b >, og 0 log 0 defineres til at være 0. Bevis Antag, at H kan skrives som i ligning (A.). Ad i): Fra egenskaber ved sum og logaritme har vi, at H b er veldefineret og kontinuert på (0, ] n. Per definitionen 0 log b 0 = 0 er H b veldefineret på [0, ] n. For at vise, at H b er kontinuert på [0, ] n, er det nok at vise, at p log b p er kontinuert med hensyn til p i punktet 0. Vi betragter først, at grænseværdien for p log b p for p gående mod 0, kan omskrives til en brøk lim p log log b p = lim b p p 0 p 0. Idet log b p går mod og p går mod for p gående mod 0, følger det af l Hôpitals regel [Wad04, Sætning 4.8], at lim p log b p = lim p 0 p 0 d dp log b p d dp p = lim p 0 p ln(b) p 2 p p = lim p 0 ln(b) = 0 = 0 log b 0, hvor den sidste lighed gælder per definitionen af 0 log b 0. Dermed er H b kontinuert i [0, ] n, hvilket viser, at (A.) opfylder i). Ad ii): Det er ved indsættelse tilstrækkeligt at vise, at der er ensbetydende med n log b hvilket viser, at (A.) opfylder ii). n+ n < n + log b log b (n) < log b (n + ), n +, 78

81 Ad iii): Ved indsættelse er det tilstrækkeligt at vise, at n log k b n = b i n log b i k b n + b i b i log n b b. j= i b i Eftersom k b i n =, n n =, og b i j= b i =, kan vi skrive = = k k k = log b n = log b n = b i n log b i k b n + b i n ( bi n log b i b n + b i n log b ( ( )) bi b i log n b b i n k n log b b i n n, hvilket viser, at (A.) opfylder iii). b i j= ) b i log b b i Ad (A.): Vi antager, at H opfylder i), ii) og iii). Vi vælger k, m, n Z + så m >, n = mk og lader b i = m for i =,..., k. Vi har mk = k b i = n og k = n/m. Fra iii) har vi nu H ( n,..., ) ( m = H n n,..., m ) + n = H Hvis n = m s, hvor s Z +, får vi ( ) H m s,..., m s = H ( m n,..., m n ) + H ( m s,..., m s b i k ( m n H m,..., ) m ( m,..., ). m ) ( + H m,..., ). m Vi definerer g(n) = H ( n,..., n) og får g(m s ) = g(m s ) + g(m) og ved induktion g(m s ) = sg(m) for alle m, s Z +. 79

82 BILAG A. ENTROPI Endvidere har vi fra ii), at g er voksende og altså g(m s ) < g(m s+ ), hvilket medfører sg(m) < (s + )g(m), som betyder, at g(m) er positiv. Vælg r, t Z + så r >, t vilkårlig, og bestem s så m s r t < m s+. (A.2) Vi har g(m s ) g(r t ) < g(m s+ ). Per definition af g(m) gælder der sg(m) tg(r) < (s + )g(m), som giver s t g(r) g(m) < s +. (A.3) t Men fra (A.2) har vi s log m t log r < (s + ) log m, hvilket giver s t log r log m < s +. (A.4) t Når vi kombinerer (A.3) med (A.4), får vi t g(r) g(m) log r log m < t. Men da dette gælder for vilkårlige t, kan vi konkludere g(r) g(m) = log r log m og g(r) log r = g(m) log m. For fastholdt m er g(m)/ log m en konstant, g(r)/ log r bliver dermed også en konstant, og vi kan vælge en base b, så g(r) = log b r. 80

83 Derved kan vi omskrive iii) til H ( b n,..., b ) k = g(n) n = log b n = k Da alle p,..., p k Q + kan skrives på formen k b n,..., b k n, hvor b i Z +, ved at omskrive til fælles nævner, får vi k b i n g(b i) b i n log b i b n, b i n log b(b i ) k b i = n, k H(p,..., p k ) = p i log b p i, (A.5) for alle p,..., p k Q +. Endvidere, da H antages at være kontinueret, skal det også gælde for p,..., p k R +. Vi bemærker, at lim p log b p = 0. p 0+ Dermed gælder (A.5) for alle p,..., p k R +, og det er dermed vist, at H kan skrives som i (A.). Entropifunktionen er derved entydig bestemt. 8

84

85 BILAG B Afkodning Definition B. (Minimumafstandsafkodning) [JH04, Definition.3.] En minimumafstandsafkoder for en given kode C med minimumafstand d afbilder modtagne vektorer r på kodeord c C således at d d H (r, c), 2 hvis et sådant c findes. Ellers melder afkoderen fejl. Definition B.2 (Maksimalsandsynlighedsafkodning) [JH04, Definition 3.3.] En maksimalsandsynlighedsafkoder for en given kode C afbilder modtagne vektorer r på kodeord c r C således at d H (r, c r ) = min c C d H(r, c). En minimumafstandsafkoder for en kode C med minimumafstand d garanterer derfor, under forudsætningen, at der foregår d 2 eller færre fejl, at den afkoder korrekt til et entydigt kodeord, der ligger indenfor en d 2 -afstand fra det modtaget ord. Dette blev bevist muligt i Sætning 3.2. Foregår der flere end d 2 fejl, vil afkoderen melde fejl, hvis ikke det modtaget kodeord ligger indenfor afstand d fra et kodeord i C, eller afkode forkert. Hvis der eksisterer ord i vektorrummet, som C er en delmængde af, som afkoderen ikke kan afkode til et kodeord i C, så siges afkoderen at være ikke-fuldstændig. I tilfælde hvor en ikke-fuldstændig afkoder ikke kan afkode et kodeord, bedes kodeordet typisk sendt igen. 83

86 BILAG B. AFKODNING En maksimalsandsynlighedsafkoder på den anden side afkoder altid et modtaget ord r til et tættestliggende kodeord c, uden forudsætning om at ligge indenfor en bestem radius af et bestemt kodeord 2, hvilket, på trods af, at det er mest sandsynligt, at det var c, der blev afsendt, kan resultere i fejlagtig afkodning, hvis den afsendte besked blev udsat for tilstrækkelig støj. Er der flere end ét kodeord, der er tættest på r, vælges et af kodeordene. Minimumafstandsafkodning er derfor en slags maksimalsandsynlighedsafkodning, der muliggør rettelser op til et bestemt antal fejl med garanti. Den øvre grænse af fejl en minimumafstandsafkoder kan rette gør, at en anvendelig maksimalsandsynlighedsafkoder, som ellers er svær at lave, ofte bliver nem at lave. Definition B.3 (Vægtfordeling, vægtenumerator) Vægtfordelingen for en (n, k)-kode C er en vektor A = (A 0, A,..., A n ), hvor A i = {c C : w H (c) = i}. Vægtenumeratoren er et polynomium givet ved A(z) = A i z i. i=0 2 En sådan afkoder siges at være fuldstændig. 84

87 BILAG C Endelige legemer Her introduceres kort definitioner og notation for endelige legemer, samt de egenskaber ved disse, der er mest relevante i denne rapports sammenhæng. For nærmere information om legemer, henvises der til [Lau03]. Definition C. (Legeme) [Lau03, Afsnit 3.] Et legeme er en tripel (F, +, ), hvor F er en ikke-tom mængde, der indeholder 0 og, og +, er binære operatorer, definerede på F, således at følgende aksiomer er opfyldt: x F : x + 0 = x x, y F : x + y = y + x x, y, z F : (x + y) + z = x + (y + z) x F ( x) F : x + ( x) = 0 x F : x = x x, y F : x y = y x x, y, z F : x (y z) = (x y) = z x, y, z F : x (y + z) = x y + x z x F; x 0 x F : x x =. Oftest udelades de binære operatorer på legemet, når der snakkes om legemer, da det ofte kan ses ud fra sammenhængen, hvad disse operatorer er. I så fald skrives legemer blot som F. Bemærk, at operatoren har præcedens over +. 85

88 BILAG C. ENDELIGE LEGEMER I de tilfælde hvor størrelsen af et endeligt legeme F er kendt, skrives F ofte som F q, hvor F q = q. Sætning C. (Legemet F p ) [JH04, Sætning 2..] Lad F p være en endelig mængde, hvor F p = p er et primtal, og lad +, være definerede på elementerne i F p modulo p. Da er (F q, +, ) et legeme, som noteres med F p. Definition C.2 (Primelement) [JH04, Afsnit 2.] Lad F q være et endeligt legeme bestående af q elementer. α F q er et primelement i F q hvis F q = {α i : i = 0,..., q 2}. Før vi kan introducére legemet F 2 m, er der nogle resultater om polynomier der skal være på plads. For nærmere information om polynomier og regning i F 2 m, henvises til [Lau03] og [JH04]. Hjælpesætning C.2 (Division med rest for polynomier) [Lau03, Følgesætning 4.2.5] Lad d F[x] være et ikke-nul polynomium. Antag, at den ledende koefficient i d er invertibel i F[x]. Så findes der, for et givet polynomium f F[x], entydige polynomier q, r F[x] således, at og enten r = 0 eller deg(r) < deg(d). f = qd + r, Sætning C.3 [JH04, Sætning 2.2.2] Et polynomium af grad n har maksimalt n rødder. Definition C.3 (Irreducibelt polynomium) [JH04, Afsnit 2.2] Polynomiet f F[x] er irreducibelt, hvis det gælder, at a, b F[x] : f = ab = deg(a) = 0 deg(b) = 0. Irreducible polynomier spiller den samme rolle i F[x], som primtal gør i Z. Hjælpesætning C.4 Lad f F[x] være et irreducibelt polynomium. Så gælder det, at a, b F[x] : f ab = f a f b. Bemærk, at alle irreducible elementer f F[x], hvor deg(f) > har et x 0 - led, da der ellers ville gælde, at x f, hvilket er i modstrid med Definition C.3. Lad P q (m) = {a m x m + + a x + a 0 a i F 2 } F q [x] være mængden af alle polynomier i F 2 [x] af grad op til m. Bemærk, at der for ethvert element a = a m x m + + a x + a 0 i P q (m) gælder, at a entydigt kan repræsenteres af en q-ær m-tupel (a 0, a,..., a m ) bestående 86

89 af koefficienterne i a. For at skelne imellem a og dets tilsvarende m-tupel, skrives polynomiet som a(x), og dets tilsvarende m-tupel som a. Vi er nu klare til at definere legemet F 2 m Definition C.4 (Legemet F 2 m) [JH04, Afsnit 2.2] Lad f P 2 (m) være et irreducibelt element af grad m. Det endelige legeme F 2 m er en tripel (F 2 m, +, ), hvor F 2 m kan både fortolkes som P 2 (m) og F m 2, + er vektoraddition over Fm 2, og er multiplikation på polynomier i P 2 (m) modulo det irreducible element f. Eksempel C. Vi betragter legemet F 2 4, der har et irreducibelt element f(x) = x 4 + x +. Lad a = (,, 0, ) og b = (0,, 0, 0) være elementer i F 2 4, med tilsvarende polynomier a(x) = x 3 + x + og b(x) = x. Da har vi, at hvor c(x) = x 3 +, og at a + b = (,, 0, ) + (0,, 0, 0) = (, 0, 0, ) = c, a(x) b(x) = [ (x 3 + x + )x ] x 4 +x+ = x4 + x 2 + x + (x 4 + x + ) = x 2 = x 2 + = d(x), hvor d = (, 0,, 0). 87

90

91 Litteratur [Bla83] Richard E. Blahut. Theory and Practice of Error Control Codes. Addison-Wesley, Maj 983. [CT06] Thomas M. Cover og Joy A. Thomas. Elements of Information Theory. Wiley & Sons, 2. udgave, [JH04] [Jus72] [Lau03] Jørn Justesen og Tom Høholdt. A Course In Error-Correcting Codes. European Mathematical Society, Jørn Justesen. A class of constructive asymptotically good algebraic codes. IEEE Transactions on Information Theory, IT-8(5): , September 972. Niels Lauritzen. Concrete Abstract Algebra: From Numbers to Gröbner Bases. Cambridge University Press, [Olo05] Peter Olofsson. Probability, Statistics, and Stochastic Processes. John Wiley & Sons, Inc., [Ple98] Vera Pless. Introduction to the Theory of Error-Correcting Codes. Wiley-Interscience, 998. [Rom92] Steven Roman. Coding and Information Theory. Graduate Texts in Mathematics. Springer-Verlag, 992. [Tho07] Christian Thommesen. Spiseseddel 5: De store tals lov. marts [Wad04] William R. Wade. An Introduction to Analysis. Pearson Education Inc., 3. udgave,

Vis mere