Ekstrema, Teori og Praksis

Transkript

1 Kasper H. Christensen Andreas D. Christoffersen Christoffer Gøthgen Stine M. Jensen Kenneth V. L. Offersen Vini M. Olsen Ekstrema, Teori og Praksis - Ikke-lineæar optimeringsproblemer Vejleder: Martin Raussen Aalborg Universitetet P3-Projekt

2

3 AALBORG UNIVERSITET INSTITUT FOR MATEMATISKE FAG TITEL: Ekstrema, Teori og Praksis - Ikke-lineær optimering PROJEKT PERIODE: fra 1. September 2012 til 20. December 2012 PROJEKTGRUPPE: Kenneth Vanman Offersen Christoffer Gøthgen Kasper Halbak Christensen Stine Mellergaard Jensen Andreas D. Christoffersen Vini Mølgaard Olsen VEJLEDER: Martin Hubert Raussen SYNOPSIS: Rapport er udarbejdet ud fra hovedemnet "optimering"og underemnet "ekstrema, teori og praksis". Projektet er afgrænset til ikke at behandle lineær optimeringsproblemer. Indledningsvis redegøres der for basale værktøjer, som partielt afledede, retnings afledede, differentiabilitet, lineær afbildning, gradient og kædereglen. Efterfølgende redegøres der for Taylors formel, Jacobi og Hesse matricen. Newton metoden anvendes til at finde kritiske punkter, hvorefter det beregnes om Hesse matricen er positiv-, negativ- eller indefinit, for at klassificere de kritiske punkter som maksimum, minimum eller saddelpunkt. Gradient descent anvendes specifikt til at finde minimumspunkter. Sidst i projektet anvendes teorien i praksis, hvor der blandt andet evalueres på "Rosenbrock funktionen", "Freudenstein"og "Roth funktionen"og en testfunktion på kvadratiskform. OPLAGSTAL: 9 ANTAL SIDER INKL. BILAG: 83 Gruppe MAT3-G3-110

4

5 Forord 1 Dette projekt er udarbejdet af gruppe G3-110, studerende på studieretningen Matematik 3. semester ved Det Teknisk-Naturvidenskabelige Fakultet, Institut for Matematiske Fag, ved Aalborg Universitet. Projektperioden; 1. september til 20. december. Projektet omhandler "Ekstrema, Teori og Praksis" under overemnet "optimering". Der ses bort fra optimering af lineære funktioner. Først vil teorien blive beskrevet, hvorefter den vil blive anvendt på nogle testfunktioner. I projektet er der taget udgangspunkt i, at læseren har samme matematikske forståelse som en 3. semesters matematik studerende på Aalborg Universitet. Gennem projektet arbejdes der under antagelse af, at den naturlige talfølge N ikke indeholder 0, medmindre andet er angivet. Samtidig er det valgt, at decimaltal i rapporten skrives på den engelske måde, hvor et punktum bruges som et komma. Vi retter en tak til vores vejleder Martin Hubert Raussen for et godt samarbejde.

6 Kapitel 1. Forord Aalborg den 20/ Kasper Halbak Christensen Andreas D. Christoffersen Christoffer Gøthgen Stine Mellergaard Jensen Kenneth Vanman Offersen Vini Mølgaard Olsen

7 Indhold 1 Forord 2 Indledning 1 3 Differentiable funktioner Partielt afledede Retningsafledede Differentiabilitet Lineær afbildning Gradient Kædereglen Jacobi og Hesse matricen Vektorfunktioner Jacobi matricen Hesse matricen Middelværdisætningen 14 6 Taylors Formel Taylors formel af en variabel Taylors restled Taylors formel af flere variable Optimering Ekstremum Kritisk punkt Bestemmelse af maksimum, minimum eller saddelpunkt

8 INDHOLD 7.4 Opsamling Optimeringsmetoder Newton Newton metoden Newton af flere variable Gradient descent Optimeringsproblemer Newton Metoden Newton program Gradient Descent Litteratur 62 A Bilag 63 B Bilag 70 C Bilag 75

9 Indledning 2 Matematisk optimering kan i mere generelle termer beskrives som den videnskabelige vej til at finde den bedste løsning for et matematisk formuleret problem. Problemerne kan for eksempel være af fysisk eller økonomisk karakter, hvor først nævnte refererer til eksempelvis energi tabet gennem en ledning. Problemer af økonomisk karakter refererer til produktions- eller leddelsesmæssige problemstillinger, for eksempel hvordan en mængde ressourcer fordeles, så bedst muligt output opnås. Begrebet Lineær programmering er et af de første begreber inden for matematisk optimering og blev introduceret af Leonid Kantorovich i slutningen af 1930 erne. Begrebet blev dog hold hemmeligt - da det blev udviklet til Soviet Unionen under 2. verdenskrig - indtil 1947 hvor George B. Dantzig publiserede sin teori om simplexmetoden. Der er sidenhen udviklet, testet og succesfuldt anvendt mange andre teorier, heriblandt ikke-lineære metoder. Målet med denne rapport er at få indsigt i hele konceptet matematisk optimering og mere specifikt ikke-lineære optimeringsmetoder. I dette projekt vil der fokuseres på to metoder, Newton metoden og Gradient Descent, som er beskrevet senere i projektet, da den mere basale teori vil blive beskrevet først. Denne basale teori er samlet i en såkaldt værktøjskasse under kapitlet differentiable funktioner. Før både Newton metoden og Gradient Descent kan bevises, skal Taylors formel og hertil middelværdisætningen introduseres. Taylors formel beskrives for funktioner af både en og flere variable. Projektet 1

10 Kapitel 2. Indledning afrundes af med et anvendelses afsnit hvori det vil blive illustreret, at gruppen har forstået og ved hvordan teorien anvendes i praksis. 2

11 Differentiable funktioner 3 Kapitlet er baseret på (Wade, 2010)[Kapitel 11]. Optimering består af flere forskellige grundlæggende arbejdsværktøjer. Dette kapitel er derfor dedikeret til, at frembringe en forståelse for de bagvedliggende værktøjer, som benyttes til at optimere en funktion. Gennem kapitlet vil værktøjerne blive præsenteret via definitioner, endvidere uddybes nogle bestemte værktøjer senere i kapitel 7, hvor værktøjet vil blive præsenteret specifikt i forbindelse med optimering. 3.1 Partielt afledede Et meget basalt værktøj til bl.a. optimering er at kunne differentiere en funktion af flere variable. For at gøre dette introduceres her de partielt afledede. De partielt afledede bestemmes ved at differentiere en funktion i forhold til en variabel, mens de øvrige sættes til at være konstante. Gennem hele rapporten defineres e j som værende enhedsvektorer langs koordinatakserne. Definition 1 Lad f : V R m, V R n og a V. De partielt afledede f x j hvis og kun hvis f f( a + h e j ) f( a) ( a) = lim x j h 0 h eksisterer i a (3.1) 3

12 Kapitel 3. Differentiable funktioner eksisterer for j = 1, 2,..., n. Eksempel 1 Beskriv de partielt afledede for en funktion af to variable, og bestem de partielt afledede til f(x, y) = x 2 + xy + y 3. Sæt a = (x, y). Ved indsættelse i 3.1 fås og f f((x, y) + h e 1 ) f(x, y) f(x + h, y) f(x, y) (x, y) = lim = lim x h 0 h h 0 h f f((x, y) + h e 2 ) f(x, y) f(x, y + h) f(x, y) (x, y) = lim = lim y h 0 h h 0 h Fra disse to formler kan de partielt afledede til f(x, y) = x 2 + xy + y 3 til punktet a = (1, 2) bestemmes som f (x + h) 2 + y(x + h) + y 3 (x 2 + xy + y 3 ) (x, y) = lim x h 0 h h 2 + 2xh + hy = lim = 2x + y h 0 h f (1, 2) = 4 x f x 2 + x(y + h) + (y + h) 3 (x 2 + xy + y 3 ) (x, y) = lim y h 0 h xh + h 3 + 3h 2 y + 3hy 2 = lim = 3y 2 + x h 0 h f (1, 2) = 13 y Udfra definition 1 kan den p te ordens partielt afledede nu defineres. Definition 2 Lad f : V R m, V R n og a V. Den p te ordens partielt afledede af en funktion f, til et punkt a beskrives da som 4 p f x p ( a)

13 3.1. Partielt afledede Definition 3 Lad f : V R, V R n være en åben mængde og a V. Lad samtidig p 1, så har f en p te ordens totalafledede i a hvis og kun hvis det (p 1) ordens partielt afledede til f eksisterer på V og er differentiabel i a. Det p te ordens totalafledede til f i a er da defineret som: D (p) f( a; h) = n i 1 =1 n i p=1 for h = (h 1,..., h n ) R n og n, p N. p f x i1 x ip ( a)h i1 h ip I tilfælde hvor p > 1 kan formlen også opskrives på følgende måde: D (p) f( a; h) = D (1) (D (p 1) f)( a; h) n n n = x j j=1 i 1 =1 i p 1=1 p 1 f ( a)h i1 h ip 1 h j x i1 x ip 1 Eksempel 2 Lad f : V R, (a, b) V og lad f være kontinuert på [a, b] og 2 gange differentiabel på (a, b). Find da formlen for den 2. ordens totalafledede til f. Udfra definition 3 opskrives formlen: D (2) f((a, b); (h 1, h 2 )) = 2 2 i=1 j=1 p f x i x j (a, b)h i h j = h 2 2 f 2 f 1 (a, b) + h 1 h 2 (a, b) x 1 x 2 x f + h 2 h 1 (a, b) + h 2 2 f 2 (a, b) x 2 x 1 x 2 2 For funktionen f(x, y) = (xy) 2 er den 2. ordens totalafledede derfor: D (2) f((x, y); (h 1, h 2 )) = 2y 2 h xyh 1 h 2 + 4xyh 1 h 2 + 2x 2 h 2 2 = 2y 2 h xyh 1 h 2 + 2x 2 h

14 Kapitel 3. Differentiable funktioner 3.2 Retningsafledede Udfra de partielt afledede kan ændringshastigheden, for en funktion i et punkt i retning af akserne bestemmes. Det er dog i visse tilfælde nødvendigt at kende ændringshastigeheden i en vilkårlig retning. Derfor defineres nu de retningsafledede. Definition 4 Lad f : V R n og lad u = u 1 e 1 + u 2 e u n e n = (u 1, u 2,..., u n ) være en enhedsvektor. Den retningsafledede er da givet ved f( a + h u) f( a) D u f( a) = lim h 0+ h = d dt f( a + t u) t=0 3.3 Differentiabilitet I optimering arbejdes der med differentabilitet af en funktion. Det vides at der findes funktioner, der ikke er differentiable som f.eks f(x) = x. Ud fra grænseværdien er det muligt at bestemme, om funktionen er differentibel. Definition 5 Lad f : V R, V er en åben mængde, punktet a V og lad f 1,..., f n være de partielt afledede til f med hensyn til henholdsvis x 1,..., x n. f er differentiabel i punktet a hvis og kun hvis f( a + lim h) f( a) h 1 f 1 ( a) h n f n ( a) h 0 = 0 (3.2) h for h = (h 1,..., h n ) 3.4 Lineær afbildning I forbindelse med optimering benyttes notationen for lineær afbildning eller lineær transformation. Derfor defineres denne. Definition 6 Lad V R n og W R m, så kaldes funktionen T : V W en lineær afbildning 6

15 3.4. Lineær afbildning hvis følgende betingelser er opfyldt: T (u + v) = T (u) + T (v), for alle u, v V T (αv) = at (v), for alle α R og v V Differentiabilitet er tidligere i rapporten blevet defineret og definitionen, 5, vil nu opskrives ved brug af lineær afbildning. Eksempel 3 Beskriv differentiabilitet for en funktion af to variable ved brug af lineær afbildning. Først skrives ligningen ud, for to variable, ved hjælp af definition 5 f(x 1 + h 1, x 2 + h 2 ) f(x 1, x 2 ) (h 1 f 1 (x 1, x 2 ) + h 2 f 2 (x 1, x 2 )) lim = 0 (h 1,h 2 ) (0,0) (h 1, h 2 ) h 1 f 1 (x 1, x 2 ) + h 2 f 2 (x 1, x 2 ) kan betragtes som et tal, og derved som en lineær afbildning, og kan derfor opstilles som f(x 1 + h 1, x 2 + h 2 ) f(x 1, x 2 ) T (h 1, h 2 ) lim = 0 (h 1,h 2 ) (0,0) (h 1, h 2 ) Da T (h 1, h 2 ) = T (h 1, 0) + T (0, h 2 ) kan T (h 1, 0) og T (0, h 2 ) bestemmes. Derfor sættes h 2 = 0 og følgende kan opstilles f(x 1 + h 1, x 2 ) f(x 1, x 2 ) T (h 1, 0) lim = 0 h 1 0 h 1 Da T er lineær vælges T (h 1, 0) = αh 1 hvilket giver α = f(x 1 + h 1, x 2 ) f(x 1, x 2 ) lim = f 1 (x 1, x 2 ) h 1 0+ h 1 På samme måde vægles T (0, h 2 ) = βh 2 og der regnes analogt for h 1 = 0. Heraf fås β = f 2 (x 1, x 2 ) Og herudfra kan det ses at T (h 1, h 2 ) = T (h 1, 0) + T (0, h 2 ) = αh 1 + βh 2 = h 1 f 1 (x 1, x 2 ) + h 2 f 2 (x 1, x 2 ) Det kan derpå konkluderes at differentiabilitet for to variable kan opskrives ved brug af lineær afbildning. 7

16 Kapitel 3. Differentiable funktioner 3.5 Gradient Gradienten er defineret som følgende. Definition 7 For en funktion f : V R n, hvor alle 1. ordens partielt afledede eksisterer, defineres gradienten, til et givent punkt a V, som f( a) = f x 1 ( a) e 1 + f x 2 ( a) e f x n ( a) e n hvor e 1,..., e n er enhedsvektorerne for de respektive koordinatakser. Geometrisk set har gradienten den egenskab, at i et punkt a, peger gradienten i den retning, hvor f(x 1, x 2,..., x n ) stiger mest. Senere i rapporten vil det blive vist, at dette også medfører f( a) = 0 når a er et kritisk punkt (se definition 13). Den lineære afbildning kan formuleres ved brug af gradienten; hvilket kan ses her T (h 1, h 2 ) = f(x 1, x 2 ) (h 1, h 2 ) 3.6 Kædereglen I følgende redegøres der for kædereglen. Kædereglen anvendes i en lang række af beviserne gennem rapporten. Sætning 1 Lad f : R m R n og g : R p R m være reelle funktioner. Lad samtidig g være differentiabel i a R n og f differentiabel i g( a). Så er f g differentiabel i a og D(f g)( a) = Df(g( a))dg( a) Eksempel 4 Find u u og r t for u = x2 + 2y, x = rsin(t), y = sin 2 (t). 8

17 3.6. Kædereglen Ved brug af kædereglen fås u r = u x x r + u y y r Ved indsættelse af x = r sin(t) fås u r = 2rsin2 (t) Med samme fremgangsmåde findes u t u t = u x x t + u y y t = 2(r 2 + 2)sin(t)cos(t) = (2x)(sin(t)) + (2)(0) = (2x)(rcos(t)) + (2)(2sin(t)cos(t)) Ved kombination af kædereglen og gradient skabes en formel til bestemmelse af de retningsafledede. Sætning 2 Givet f : V R n og en enhedsvektor u = u 1 e 1 + u 2 e u n e n. Antag f differentiabel på a, da er den retningsafledede til f på a i retning af u givet ved D u f( a) = u f( a) Bevis 1 Definitionen for retningsafledede kan skrives som D u f( a) = t f(a 1 + tu 1, a 2 + tu 2,..., a n + tu n ) Da a j + tu j for j = 1, 2,..., n er funktioner skal kædereglen anvendes. Heraf fås D u f( a) = t f(a 1 + tu 1, a 2 + tu 2,..., a n + tu n ) = u 1 f 1 ( a) + u 2 f 2 ( a) + + u n f n ( a) = u f( a) t=0 t=0 9

18 Kapitel 3. Differentiable funktioner Der er nu blevet redegjort for de mest basale arbejdsværktøjer, der vil blive benyttet gennem hele rapporten. 10

19 Jacobi og Hesse matricen 4 Dette kapitel tager udgangspunkt i (Wade, 2010), (Adams and Essex, 2010), (Wade, 2010, afsnit 12.7) og (Cornean, 2012). I forbindelse med klassificering af kritiske punkter, er det vigtigt at have kendskab til Hesse matricen. Hesse matricen defineres i dette kapitel. For at få en naturlig overgang til Hesse matricen, bliver der først redegjort for vektorfunktioner og Jacobi matricen. 4.1 Vektorfunktioner En vektorfunktion er en funktion f : V R m, hvor V R n. En Vektorfunktion består af en samling funktioner f j : V R hvor j = 1, 2,..., m. Disse funktioner kaldes koordinater eller komponentfunktioner af f. Notationen af en vektorfunktion er som følgende. f( x) = f 1 ( x) f 2 ( x). f m ( x) for alle x V. 11

20 Kapitel 4. Jacobi og Hesse matricen Ved funktioner af flere variable ses det, at f er differentiabel i a, hvis der findes en lineær afbildning T L(R n ; R m ), således at kriterierne i kapitel 3 afsnit 3.3 og 3.4. Kriterierne for, at en vektorfunktion er differentiabel er de samme, og fås ved at bruge f frem for f. I tilfældet af differentiabilitet for en vektorfunktion vil afbildningen repræsentere en m n matrix indeholdende de partielt afledede af vektorfunktions komponentfunktioner. Denne matrix noteres som B = [b ij ] m n, således at T ( x) = B x, hvor x R n (Wade, 2010, side 282) er sandt. Desuden er matricen B unik, specielt for hvert T findes der kun en matrix B der opfylder at T ( x) = B x, hvor x R n. Denne matrix B, der angives ved T når f er differentiabelt i punktet a, er kaldet de total afledede af f og bliver angivet som [Df( a)], denne matrix kaldes for Jacobi matricen. 4.2 Jacobi matricen Jacobi matricen er en matrix bestående af alle første ordens partielle afledede af en vektor- eller skalar-funktion. Definition 8 Lad f : R n R m være en vektorfunktion f = (f 1, f 2,..., f m ) bestående af m funktioner, hvor hver funktion er af n variable (x 1, x 2,..., x n ). Antag, at alle de partielt afledede til funktionerne f j for j = 1, 2,..., m eksisterer, så defineres Jacobi matricen J som følgende. [Df( x)] = J = 4.3 Hesse matricen f 1 f 1 x 1 f 2 f 2 x 1. f m x 1 x 2 f 1 x n f 2 x n x f m x 2 Jacobi matricen af gradienten til en reel funktion er kendt som Hesse matricen, hvilket indeholder de 2.ordens afledede af en skalar funktion af flere variable. Der præsenteres nu Hesse matricen, som senere i projektet vil spille en stor rolle i optimering. 12 f m x n

21 4.3. Hesse matricen Definition 9 Lad f : V R være en lineær afbildning, hvor V R n er åben. Antag f s 2.ordens partielt afledede eksisterer i a V. Hesse matricen til funktionen f i punktet a er da defineret som følger. 2 f ( a) x f H( a) = J ( f( a)) = x 2 x 1 ( a). 2 f x n x 1 ( a) 2 f x 1 x 2 ( a) 2 f x 1 x n ( a) 2 f ( a) 2 f x 2 x 2 2 x n ( a) f x n x 2 ( a) 2 f ( a) x 2 n Det ses at Hessematricen er symetrisk (jf. sætning 13). Hesse matricen er herved defineret og vil blive anvendt i flere scenarier specifikt i forbindelse med optimering senere i rapporten. 13

22 Middelværdisætningen 5 De primære kilder anvendt i dette kapitel er (Wade, 2010) og (Adams and Essex, 2010). Middelværdisætningen er nødvendig for, at kunne gå i dybden med Taylors formel, både i forbindelse med en variabel og flere variable. Middelværdisætningen vil først blive beskrevet for funktioner af en variabel, hvilket senere vil føre til sætningen for funktioner af flere variable. Inden middelværdisætningen præsenteres bliver Rolles sætning bevist, da denne er et særtilfælde af middelværdisætningen, og bruges som afsæt til bevis for den generaliserede middelværdisætning. Sætning 3 (Rolles sætning) Lad f : V R og a, b R og lad a < b. Hvis f er kontinuert på [a, b], differentiabel på (a, b) og f(a) = f(b), så eksisterer et c (a, b) så f (c) = 0 Figur 5.1. Illustration af Rolles sætning. 14

23 Bevis 2 Hvis f(x) = f(a) for alle x [a, b], så er f konstant og f (c) = 0 for alle c (a, b). Det antages derfor at der eksisterer et x (a, b), således at f(x) f(a). Der vælges en funktion så f(x) > f(a). Samtidig antages det at f(a) = f(b). Dette medfører, at der eksisterer et M = f(c) f(x) > f(a) = f(b). Eftersom M er maksimum for funktionen f på [a, b] fås det ved c < c + h < b, for h > 0, at f(c + h) f(c) h 0 så f(c + h) f(c) lim = f (c) 0 (5.1) h 0 + h Ligeledes gælder det når a < c + h < c, for h < 0, at: f(c + h) f(c) h 0 så f(c + h) f(c) lim = f (c) 0 (5.2) h 0 h Dette medfører at f (c) = 0. Der findes et analog bevis for f(x) < f(a) hvilket medfører at m = f(c) f(x) < f(a) = f(b). Da Rolles sætning nu er bevist vil den generaliserede middelværdisætning blive præsenteret. Sætning 4 (Den generaliserede middelværdisætningen) Lad f : I R og g : I R. Hvis f, g er kontinuert på [a, b] og differentiabel på (a, b), så findes et c (a, b) således at g (c)(f(b) f(a)) = f (c)(g(b) g(a)). Bevis 3 Først bør det noteres at g(a) g(b), da der ellers ville eksistere en skalar c (a, b) så g (c) = 0 (jævnfør i bevis 2 for rolles sætning). Definer en funktion h(x): h(x) = f(x)(g(b) g(a)) g(x)(f(b) f(a)) 15

24 Kapitel 5. Middelværdisætningen Eftersom h (x) = f (x)(g(b) g(a)) g (x)(f(b) f(a)) står det klart at h er kontinuert på [a, b], differentiabelt på (a, b) og h(a) = h(b) = f(b)g(a) + f(a)g(b) Ved brug af Rolles sætning (3) kan det konkluderes, at h (c) = 0 for et c (a, b). Den generaliserede middelværdisætning bruges både for funktioner af en variabel og flere variable. Derfor bliver middelværdisætningen nu præsenteret for funktioner af flere variable. Sætning 5 (Middelværdisætningen for funktioner af reelle værdier) Lad L( x; a) være et linjestykke mellem x og a. Lad f : V R n hvor V R n er en åben mængde. Antag at f er differentiabel på V. Hvis x, a V og L( x; a) V så findes et c L( x; a) så, at f( x) f( a) = f( c)( x a) Bevis 4 Lad g : R R n hvor g(t) = a + t( x a) for t R. Bemærk, at g er differentiabel, så D g(t) = x a for alle t R. Eftersom V er åben og L( x; a) V, vælges et δ > 0 således at g(t) V for alle t I δ := ( δ, 1 + δ). Dette gøres for at 1 og 0 ikke antager randpunkter. Kædereglen anvendes og det fås at D(f g)(t) = Df( g(t))d g(t) 16

25 eftersom D g(t) = x a er D(f g)(t) = Df( g(t))( x a) (5.3) for t I δ Eftersom f g : I δ R og f er en funktion af reelle værdier, så er D(f g) = (f g) og Df = f. Den generaliserede middelværdisætningen for funktioner af en variabel citerer f(b) f(a) = f (c)(b a) (5.4) Udfra 5.3 og 5.4 vides det at der eksisterer et t 0 (0, 1) f( x) f( a) = (f g)(1) (f g)(0) = (f g) (t 0 ) Eftersom (f g) = D(f g) er (f g) (t 0 ) = Df( g(t 0 ))D g(t 0 ) Derfor gælder Df( g(t 0 ))D g(t 0 ) = f( c)( x a) For c = g(t 0 ) på linjestykket. Projektet omhandler også vektorfunktioner, derfor vil middelværdisætningen blive præsenteret i forbindelse med vektorfunktioner. Sætning 6 (Middelværdisætningen for vektorfunktioner) Lad f : V R m, hvor V er en åben mængde i R n og antag at f er differentabel på V. Hvis x, a V og L(x; a) V så findes der for ethvert u R m et c L( x; a) så, at u ( f( x) f( a)) = u (Df( c)( x a)) 17

26 Kapitel 5. Middelværdisætningen Bevis 5 Lad u R m. Definer h( x) := u f( x). Ved brug af kædereglen for prikprodukt bestemmes at Dh( x) = ud( f)( x) for alle x V Da h er en reel funktion følger det fra sætning 5, at der findes et c L(x; a) således, at u ( f( x) f( a)) = h( x) h( a) = Dh( c)( x a) = u D f( c)( x a) Middelværdisætningen er nu blevet præsenteret både i forhold til en variabel og flere variable. Det er nu muligt at benytte denne viden til at arbejde med Taylors formel. 18

27 Taylors Formel 6 Dette kapitel er hovedsageligt baseret (Wade, 2010). Taylors formel er et meget vigtigt redskab i forbindelse med optimering, fordi Taylors formel senere bliver benyttet til, at vise blandt andet Newton metoden og Gradient Descent metoden. Taylors polynomium er en approksimations metode, der anvendes til at approksimere hvordan en funktion ser ud i omegnen af et specifikt punkt. Taylors formel vil først blive uddybet i forhold til funktioner af en variabel og efterfølgende i forhold til funktioner af flere variable. Det vil yderligere igennem kapitlet blive antaget at 0! = 1 og f 0 (x) = f(x). 6.1 Taylors formel af en variabel Sætning 7 (Taylors sætning) Lad f : (a, b) R, n N og lad a, b R hvor a < b. Hvis f er n + 1 gange differentiabel på (a, b) så eksisterer der et c mellem x og x 0, for hvert punktpar x, x 0 (a, b) så: f(x) = n k=0 f k (x 0 ) (x x 0 ) k + f n+1 (c) k! (n + 1)! (x x 0) n+1 (6.1) 19

28 Kapitel 6. Taylors Formel Bevis 6 Det antages at x 0 < x. Først defineres de to funktioner F (t) og G(t) udfra 6.1: F (t) := (x t)n+1 (n + 1)! G(t) := f(x) f(t) for et hvert t (a, b). n k=1 (6.2) f k (t) (x t) k (6.3) k! Beviset for Taylors formel reduceres til at vise, at der eksisterer et c mellem x og x 0, således at det opfylder: G(x 0 ) = F (x 0 )f (n+1) (c) Dette gøres ved først at finde F (t) og G (t). For at finde F (t) skal x t først substitueres med y så F (y) = 1 (n + 1)! (y)n+1. Kædereglen anvendes og der substitueres tilbage for t R F (t) = F dy y dt = (n + 1)(y)n (n + 1)! (x t)n = n! For at finde G (t) anvendes produktreglen og kædereglen, men først defineres h(y) := y k for y = x t. Ved anvendelse af produktreglen fås: ( d f k ) (t) (x t) k = f k+1 (t) (x t) k + f k ( ) (t) h dy dt k! k! k! y dt Ved indsættelse af h(y) og y fås: ( d f k ) (t) (x t) k = f k+1 (t) (x t) k k f k (t) (x t) k 1 dt k! k! k! 20 = f k+1 (t) k! (x t) k f k (t) (x t)k 1 k! 1 k = f k+1 (t) (x t) k f k (t) k! (k 1)! (x t)k 1 (6.4)

29 6.1. Taylors formel af en variabel for t (a, b). Der kan nu redegøres for G (t) ved brug af definitionen for G(t) 6.2 og resultat 6.4. G (t) = 0 f (t) f (t)(x t) + f (t) f (t) (x t) 2 + f (t)(x t) 2! f (n+1) (t) (x t) n + f (n) (t) n! (n 1)! (x t)n 1. Teleskopprincippet kan anvendes på denne funktion, hvilket medfører at leddene går ud med hinanden og kun et led står tilbage: G (t) = f (n+1) (t) (x t) n n! Da F og G er differentiable på (x 0, x) og kontinuert på [x 0, x] fås ved division af G (t) og F (t): for t x G (t) F (t) = f (n+1)(t) n! (x t) n (x t)n n! = f (n+1) (t)(x t) n (n!) n!(x t) n = f (n+1) (t) (6.5) Den generaliserende middelværdisætning fortæller os, at der eksisterer et c (a, b) så (F (x) F (x 0 )) G (c) = (G(x) G(x 0 )) F (c). Det er her vigtigt at bemærke, at x c og udfra definitionen af F (t) og G(t) (se 6.2), at F (x) = G(x) = 0 Hvilket medfører: F (x 0 )G (c) = G(x 0 )F (c) G(x 0 ) = F (x 0 ) G (c) F (c) Det kan nu, udfra 6.5, konkluderes, at G(x 0 ) = F (x 0 )f (n+1) (c) 21

30 Kapitel 6. Taylors Formel 6.2 Taylors restled Til dette afsnit er (Khan, 2011) den primære kilde. I dette afsnit vil Taylors restled blive beskrevet. Taylors polynomium er en approksimationsmetode, og der vil derfor være en fejlmargin mellem den reelle værdi og approksimationen. Denne fejlmargin kan der dog korrigeres for, ved at inkludere restleddet. Det er allerede blevet vist i det forgående afsnit. Det interessante er dog om restleddet er begrænset og det vises her. Definition 10 Lad Taylors restled være defineret som n R(x) = f(x) P (x) = f(x) k=0 f k (x 0 ) (x x 0 ) k. k! Det kan udfra 6.1 ses, at der eksisterer et c (x 0, x) således at R(x) = f n+1 (c) (n + 1)! (x x 0) n+1 Udfra ovenstående kan det ses at følgende er gældende R (x) = f (x) P (x) R (x) = f (x) P (x) (6.6). Det fremgår heraf, at jo mindre restleddet er jo mere nøjagtig bliver Taylors approksimation. Derfor er det interessante ved restleddet, om det kan bevises, at der eksisterer en værdi, der begrænser restleddet opad til. Dette vil der blive redegjort for i følgende sætning Sætning 8 Lad f : (a, b) R. Antag f(x) er kontinuert på [a, b] og n + 1 gange differentiabel på (a, b). Hvis der eksisterer et M således at f (n+1) (x) M for alle x [a, b], så gælder det, at R(x) M(x x 0) n+1 (n + 1)! for hvert punktpar x, x 0 (a, b) 22

31 6.2. Taylors restled Bevis 7 Udfra 6.6 gælder det, at R (n+1) (x) = f (n+1) (x) P (n+1) (x). Eftersom P (x) er et n te grads polynomium gælder det også at P (n+1) (x) = 0 og dermed er R (n+1) (x) = f (n+1) (x). Ifølge antagelsen findes et M så R (n+1) (x) = f (n+1) (x) M for alle x [a, b]. Da ønsket er at finde en øvre grænse til R(x), anvendes integration. x R (n+1) x x (x)dx R (n+1) (x) dx Mdx (6.7) x 0 x 0 x 0 R (n) (x) M(x x 0 ) Se (Adams and Essex, 2010, Afsnit 5.4) for hvorfor 6.7 er sandt. Der integreres igen x R (n) x (x)dx R (n) (x) dx x 0 x 0 R (n 1) (x) M(x x 0) 2 2 Denne fremgangsmåde fortsættets indtil R(x) M(x x 0) n+1 (n + 1)! x x 0 M(x x 0 )dx 23

32 Kapitel 6. Taylors Formel Det kan hermed konkluderes, at der eksisterer en grænse der angiver hvor meget R(x) højest kan vokse i forhold til x 0. Ovenstående er dog i sig selv ikke særligt anvendeligt, da der ikke eksisterer en egentlig tolerance. Derfor afrundes dette afsnit med at vise, at for en given tolerance ε gælder det, at R(x) M(x x 0) n+1 (n + 1)! Ved omskrivning fås at x x 0 n+1 < Det vides at (n + 1)! ε M < ε x x 0 < n+1 (n + 1)! n+1 ε M. n+1 (n + 1)! 1 hvilket medfører at x x 0 < n+1 ε M (6.8) og x x 0 n+1 < (n + 1)! ε M. (6.9) Derfor hvis 6.8 og 6.9 er opfyldt kan det siges at R(x) < ε for et givet ε, og det kan dermed sættes en brugbar begrænsning på restleddet, med ε som tolerancen. 6.3 Taylors formel af flere variable I dette afsnit bliver Taylors formel af flere variable beskrevet. For at dette kan lade sig gøre, skal der først redegøres for L( x; a). Denne notation beskriver linjestykket mellem x og a. 24

33 6.3. Taylors formel af flere variable Sætning 9 Lad p N, V være en åben mængde i R n, x, a V og antag at f : V R. Hvis det totale p te ordens differentiale til f eksisterer på V og på L( x; a) V, så eksisterer der et punkt c L( a; x) så p 1 1 f( x) = f( a) + k! D(k) f( a; h) + 1 p! D(p) f( c; h) (6.10) for h = x a. Bevis 8 k=1 På samme vis, som det blev gjort i beviset for middelværdisætningen for funktioner af reelle værdier (5), vælges et δ > 0 så tilstrækkeligt lille, at for t I δ := ( δ, 1 + δ) gælder det at a + t h V. Funktionen F : ( δ, 1 + δ) R defineres ved F (t) := f( a + t h). Det gælder at F (t) er differentialbel på I δ og ved brug af kædereglen findes F (t). F (t) = Df( a + t h)( h) = n k=1 f x k ( a + t h) h k Dette kan udfra definition (3) generaliseres til: F (j) (t) = n i 1 =1 For j = 1, 2,..., p. n i j =1 j f x i1... x ij ( a + t h) h i1... h ij Det gælder derfor at F (j) (0) = D (j) f( a; h) (6.11) og F (p) (t) = D (p) f( a + t h; h) (6.12) for j = 1,..., p 1 og t I δ. Det er nu bevist, at den reelle funktion F har en p te ordens afledede i ethvert punkt på I δ [0, 1]. Ved brug af Taylors formel af en variabel(7), 6.11 og

34 Kapitel 6. Taylors Formel kan følgende formuleres: f( x) f( a) = F (1) F (0) = = p 1 j=1 p 1 j=1 1 j! F (j) (0) + 1 p! F (p) (t) 1 j! D(j) f( a; h) + 1 p! D(p) f( a + t h; h) (6.13) for et t (0, 1). Sættes c = a + t h, så er 6.13 lig 6.10 og sætningnen er hermed bevist. Eksempel 5 Beskriv Taylors formel for funktionen f(x, y) = x + y i punktet a = (1, 4) for p = 3. Da p = 3 findes D (1) f((1, 4); (x, y)), D (2) f((1, 4); (x, y)) og D (3) f((c, d); (x, y)). Dette er forsøgt gjort mere overskueligt i følgende tabel. 26 f x 1 2 x f x (1, 4) f y 2 1 y f y (4, 4) 4 f xx 1 4x 3 2 f xx (1, 4) 1 4 f xy 0 f xy (1, 4) 0 f yy 1 4x 3 2 f yy (1, 4) f xxx f 8x 2 5 xxx (c, d) 8c 2 5 f xxy 0 f xxy (c, d) 0 f xyy 0 f xyy (c, d) 0 f yyy 3 8y 5 2 f yyy (c, d) 3 8d 5 2

35 6.3. Taylors formel af flere variable Resultaterne bliver sat ind i Taylors formel 1 x + y = (x 1) (y 4) 1 8 (x 1)2 1 (y 4) (x 1) (y 4)3 6 8c 5 2 8d 5 2 (x 1) (y 4) = (x 1) (y 4)3 + c 5 16 d 5 For nogle (c, d) L((x, y); (1, 4)) (x 1)2 8 (y 4)2 64 Taylors formel, af både en og flere variable, er nu beskrevet og det er klar til at gå i dybden med optimering, som er essensen i projektet. 27

36 Optimering 7 Alle redskaberne, der skal bruges er nu på plads og optimering af funktioner kan påbegyndes. Det første og mest grundlæggende vil være at definere hvordan man i bund og grund optimerer en funktion. Bag konceptet optimering ligger formålet at finde det punkt x, hvor en funktion f(x) har sin mindste eller største værdi. Første punkt i kapitlet er derfor definition af et ekstremum og et ekstremalpunkt. 7.1 Ekstremum I optimering arbejdes der med åbne og lukkede kugler, derfor inddrages en smule topologi inden ekstrema defineres. Definition 11 Lad a R n. 1. For ethvert r > 0, defineres den åbne kugle med centrum i a og radius r som mængden B r ( a) = { x R n : x a < r} 2. For ethvert r > 0, defineres den lukkede kugle med centrum i a og radius r som mængden { x R n : x a r} 28

37 7.2. Kritisk punkt I projektet anvendes kun åbne kugler, da der ikke arbejdes med randpunkter. Da den korte introduktion til topologi nu er på plads, kan ekstremum nu defineres. Definition 12 Lad f : V R, hvor V er åben, og lad et punkt a V. 1. f( a) kaldes et lokalt minimum af f, hvis og kun hvis et r > 0 findes, så f( a) f( x) for alle x B r ( a). 2. f( a) kaldes et lokalt maksimum af f, hvis og kun hvis et r > 0 findes, så f( a) f( x) for alle x B r ( a). 3. f( a) kaldes et ekstremum af f, hvis og kun hvis f( a) er enten et lokalt maksimum eller et lokalt minimum. Hvis f( a) er et ekstremum kaldes punktet a et ekstremalpunkt. Et lokalt ekstremum for en funktion f kan være et punkt a på funktionen, hvor funktionsværdien er mindre eller større end alle andre punkter i domænet af funktionen. Da der ledes efter den største eller laveste værdi på en funktion, må et lokalt ekstremum repræsentere funktionens optimale værdi i omegnen af ekstremalpunktet. For at kunne bestemme disse punkter skal der først og fremmest defineres et kritisk punkt, som tager udgangspunkt i gradienter. 7.2 Kritisk punkt Et kritisk punkt er defineret ud fra understående definition. Definition 13 Lad f : V R n være differentiabel. Et punkt a V kaldes et kritisk punkt når f( a) = 0. Ud fra definitionen er det muligt at angive, hvorledes det kan bestemmes, at en funktion der antager et lokalt ekstrema i et punkt, vil være et kritisk punkt. 29

38 Kapitel 7. Optimering Sætning 10 Hvis en differentiabel funktion f : V R n antager et lokalt ekstremum i a, vil a være et kritisk punkt. Bevis 9 Antag at a er et ekstremalpunkt for f. En differentiabel funktion g h (t) for h 0 defineret ved: g h (t) := f( a + t h) for t (0, 1). a + t h beskriver et linjestykke gennem punktet a, ved bevægelse i enhedsvektoren h s retning. Hvis funktionen f har et ekstremum i a må funktionen g h nødvendigvis også have et ekstremum i t = 0, på linjestykket med parameterfremstilling a + t h, hvilket samtidig medfører at: g h (0) = 0 (7.1) Ved brug af kædereglen differentieres g h (t). Derved fås g h (t) = n i=1 f x i ( a + t h)h i = f( a + t h) h. Derefter benyttes 7.1: 0 = g h (0) = f( a) h (7.2) Dette gælder for alle retningsvektorer h 0. Gradienvektoren i a står derfor vinkelret på alle vektorer og det må derfor gælde at f( a) = 0 for at 7.2 opfyldes. Heraf vides det, at størrelsen på gradienten i et kritisk punkt er lig med nulvektoren, og sætningen er derved bevist. 30

39 7.3. Bestemmelse af maksimum, minimum eller saddelpunkt Dette vigtige resultat gør det muligt at bestemme lokale ekstremer og et ekstremalpunkt af en funktion, ved hjælp af metoder til bestemmelse af de kritiske punkter. Selvom at ethvert lokalt ekstremum er et kritisk punkt, er det ikke en nødvendighed, at et kritisk punkt er et lokalt ekstremum. Dette vises i eksemplet som følger. Eksempel 6 Betragt funktionen f(x, y) = y 2 x 2 Funktionen er kontinuert og de partielle afledede eksisterer. Det ses, at f( 0) = 0 er et kritisk punkt. Punktet er dog ikke et lokalt ekstremalpunkt, da ikke alle værdier i omegnen er mindre eller større end punktets funktionsværdi. F.eks. f(0, 0) = 0, f(t, 0) = t 2 og f(0, t) = t 2, så f(t, 0) < f(0, 0) < f(0, t) for et vilkårligt lille t. Et kritisk punkt som dette kaldes et saddelpunkt. Definition 14 Lad f : V R, hvor V er åben, og lad a V. Hvis f( a) = 0, og der findes et r 0 > 0 så der for ethvert 0 < ρ < r 0 findes x, y B ρ ( a) således f( x) < f( a) < f( y) er opfyldt, så kaldes a et saddelpunkt. Grundet ovenstående definition og eksempel skal der bruges en ny metode som sikrer, at det kritiske punkt er et lokalt ekstremalpunkt. Denne metode bestemmer om Hesse matricen til en funktion er definit i det kritiske punkt. 7.3 Bestemmelse af maksimum, minimum eller saddelpunkt Det er vigtigt at kunne bestemme hvilket slags kritisk punkt der arbejdes med. For at bestemme om der arbejdes med minimum, maksimum eller saddelpunkt i et kritisk punkt, vil der blive opstillet en række sætninger, der samlet vil resultere i et vigtigt resultat til bestemmelse af dette. Før der arbejdes med de 31

40 Kapitel 7. Optimering følgende sætninger, defineres nu hvorledes det er muligt at bestemme om en operatorer er adjungerede. Definition 15 Lad T : V V hvor V R n. Den adjungerede til T er da defineret som T : V V, hvis T ( v) w = v T ( w) for alle v, w V. Hvis T = T kaldes T selv-adjunger. Yderligere, T kaldes normal hvis T T = T T. Observer, at alle selv-adjungerende operatorer er normale. Der arbejdes nu med de følgende sætninger. Sætning 11 Lad A være en n n matrix med komponenter {a jk }. Definer n n A HS = (a jk ) 2 j=1 k=1 Da opfyldes uligheden A x A HS x for alle x R n. Bevis 10 Hvis der tages udgangspunkt i en række ad gangen i matricen kan de enkelte rækker tolkes som vektorer j som tilsammen udgør matricen. På denne måde kan Cauchy-Schwarz uligheden benyttes på hver af rækkerne i A x ((Wade, 2010), side 273). n (A x) j = a jk x j n (A x) j 2 = 32 k=1 ( n ) 2 a jk x j n a 2 jm x i m=1 i=1 n a 2 jm k=1 m=1 i=1 n x i = n a 2 jm x 2 m=1

41 7.3. Bestemmelse af maksimum, minimum eller saddelpunkt Summeres over j på begge sider fås følgende. n n n (A x) j 2 = A x x 2 = A HS x j=1 j=1 m=1 a 2 jm Sætningen under viser et specielt tilfælde af kædereglen. Sætning 12 Lad K = B δ ( a) = { y R n : y a < δ} være en åben kugle i R n. Lad T : K R, og antag T s 1. ordens partielt afledede eksisterer på K. Tag et x K. Definer en funktion f(t) = T ( a + t( x a)) for 0 t 1. f er da kontinuer på [0, 1], differentiabel på (0, 1) og følgende formel gælder. f (t) = Bevis 11 n j=1 (x j a j )( x j T ( a + t( x a))) (7.3) Sætningen kan udledes fra bevis 9 ved h = x a. Sætning 13 Lad K = B δ ( a) = { y R n : y a < δ} være en åben kugle i R n. Lad T : K R, og antag T s anden ordens partielt afledede eksisterer på K. Der gælder da, at 2 T x j x k = 2 T x k x j for alle j, k = 1, 2,..., n. Sættes denne sætning i sammenhæng med Hesse matricen kan det ses, at H( x) = H T ( x), altså at matricen er symmetrisk. Dette medfører, at operatoren matricen beskriver er selv-adjunger. Sætningen herunder viser et særligt tilfælde af Taylors formel af flere variable. Sætning 14 Lad K = B δ ( a) = { y R n : y a < δ} være en åben kugle i R n. Lad 33

42 Kapitel 7. Optimering T : K R, og antag T s 2. ordens partielt afledede eksisterer på K. For ethvert x K eksisterer da et c x (0, 1) så T ( x) T ( a) = ( x a) T ( a) (( x a) H( a + c x( x a))( x a)) Bevis 12 Taylors formel af flere variable med restled kan opskrives som følger. T (x) = T (a) + D (1) T ( a; h) D(2) T ( c; h) (7.4) for h = x a. Da c L( a; x) må der findes et c x (0, 1) så c = a + c x ( x a) opfylder 7.4. Indsættes formelen for D (p) fra definition 3 kapitel 3 fås T (x) = T (a) + ( x a) T ( a) + 1 n n p T ( c)h i h j 2 x i x j i=1 j=1 Betragtes de dobbelt partielt afledede som indgange i Hesse matricen H( a + c x ( x a)) og h i /h j som indgange i h kan ovenstående skrives som følger. T ( x) = T ( a) + ( x a) T ( a) (( x a) H( a + c x( x a))( x a)) Sætning 15 (Spektralsætningen) Lad V være et endeligtdimensionalt vektorrum, og T : V V. T er normal hvis og kun hvis der eksisterer en ortonormal basis for V, opbygget af T s egenvektorer. Dette afslutter alle sætninger, der skal bruges for at kunne anvende Hesse matricen til optimering. Den første af følgende sætninger vil beskrive scenariet hvor et kritisk punkt er et ekstremum, og anden sætning det modsatte. Sætning 16 Lad K = B δ ( a) = { y R n : y a < δ} være en åben kugle i R n. Lad T : K R, og antag T s anden ordens partielt afledede eksisterer på K. Antag a K er et kritisk punkt. Hvis alle Hesse matricen H( a) s egenværdier er positive(negative) er T ( a) et lokalt minimum(maksimum). 34

43 7.3. Bestemmelse af maksimum, minimum eller saddelpunkt Bevis 13 Sætning 14 opskrives med T ( a) = 0. T ( x) = T ( a) (( x a) (H( a + c x( x a))( x a))) (7.5) 1 2 ( x a) (H( a)( x a)) lægges til og trækkes fra, og giver T ( x) = T ( a) + 1 ( x a) (H( a)( x a)) (( x a) ((H( a + c x( x a)) H( a))( x a))) (7.6) Ved sætning 15 vides, at der findes en orthonormal basis { v j : 1 j n} bestående af egenvektorer til H( a). Der eksisterer altså egenværdier {λ j : 1 j n} således H(a) v j = λ j v j for alle j. Definer en vektor h som unikt opfylder h = n ( h v j ) v j j=1 H( a) ganges på begge sider. H( a) h = n ( h v j )H( a) v j = j=1 n ( h v j )λ j v j j=1 Prikkes der med h på begge sider fås n h (H( a) h) = ( h v j ) 2 λ j j=1 Antag nu, at alle egenværdier til H er positive, og noter den mindste egenvektor ved et m > 0. Den ovenstående ligning kan skrives som følgende ulighed, da vi ved, at basen bestående af H( a) s egenvektorer er ortonormal. n h (H( a) h) m ( h v j ) 2 = m h 2 Sættes h = x a fås j=1 ( x a) (H( a)( x a)) m x a 2 Dette indsættes i 7.6. T ( x) T ( a) + m x a (( x a) ((H( a + c x( x a)) H( a))( x a))) (7.7) 35

44 Kapitel 7. Optimering Dette gælder for alle x K. Noter A x som matricen givet ved A x := H( a + c x ( x a) H( a)). Anvendes Cauchy-Schwarz ulighed på sidste del af ulighed 7.7 fås ( x a) A x ( x a) ( x a) A x ( x a) Ved brug af sætning 11 kan der skrives følgende. ( x a) A x ( x a) x a 2 A x HS Da venstresiden er numerisk er følgende opfyldt. ( x a) A x ( x a) ( x a 2 A x HS ) Der indsættes i 7.7. T ( x) T ( a) m x a ( ( x a 2 A x HS )) = T ( a) x a 2 (m A x HS ) Indgangene i A x beskrives ved: a jk = 2 T ( a + c x ( x a)) 2 T ( a) x i x j x i x j Når x a 0 går ovenstående udtryk mod nul, uafhængigt af parameteren c x. Dette medfører, at indgangene i matricen A x afhænger af størrelsen af x a. Der vælges en åben kugle med centrum i a og radius ε. Hvis x a er mindre end ε kan A x HS gøres mindre end m. Dette indsættes i 7.7 og 2 følgende fås. T ( x) T ( a) m x a m x a 2 2 = T ( a) + m 4 x a 2 T ( a) (7.8) Dette gælder for alle x B ɛ ( a) K, og beviser, at a er et lokalt minimum til T. Antag nu, at alle egenværdier er negative, og noter den største af dem som m < 0. Bruges dette i ulighederne fra første del af beviset fås 36 ( x a) (H( a)( x a)) m x a 2

45 7.3. Bestemmelse af maksimum, minimum eller saddelpunkt Indsættes dette, sammen med resultaterne fra første del, i 7.6 fås T ( x) ( a) m x a ( x a 2 A x HS ) = T ( a) m A x x a 2 2 Som før, kan A x HS gøres mindre end m 2. T ( x) T ( a) m 4 x a 2 T ( a) Herved er a lokalt maksimum til T. Sætning 17 Lad K = B δ ( a) = { y R n : y a < δ} være en åben kugle i R n. Lad T : K R, og antag T s 2. ordens partielt afledede eksisterer på K. Antag a K er et kritisk punkt. Hvis Hesse matricen H( a) har mindst en positiv egenværdi λ + > 0 og mindst en negativ egenværdi λ < 0 er T ( a) et saddelpunkt. Bevis 14 Noter to egenvektorer som v ±, med tilhørende egenværdier λ ±. Da egenvektorerne er ortonormale vil v ± = 1. Definer en afbildning x ± (t) := a + t v ± på intervallet I ± R, således at x ± (t) K. x + og x betragtes nu separat. For I + defineres T + (t) = T ( x + (t)). Ved at erstatte x med x + i 7.6 ses det, at andet led på højresiden i approksimationen er givet ved: 1 2 (( a + t v + a) 1 2 ( x a) (H( a)( x a)) = H( a)( a + t v + a)) = t2 2 ( v + H( a) v + ) Da H(a) v j = λ j v j og v = 1 kan følgende opskrives 1 2 (( a + t v + a) 1 2 ( x a) (H( a)( x a)) = λ +t

46 Kapitel 7. Optimering Indsættes dette i 7.6 fås T + (t) = T ( a) + λ +t (( a + t v +) a) [H( a + c t t v + ) H( a)] (( a + t v + ) a) = T ( a) + λ +t 2 + t2 2 2 ( v + ([H( a + c t t v + ) H( a)] v + )) (7.9) for et c t (0, 1). Som før, hvis t mindre end ε + > 0, kan H( a + c t t v j+ ) H( a)) HS gøres mindre end λ + 2. Ved indsættelse i 7.9 ses det at: T + (t) T ( a) + λ +t 2 4 for alle t < ɛ +. Altså er der blevet konstrueret punkter x K, som ligger tæt på a og det gælder, at T ( x) > T ( a). Der betragtes nu T (t) = T ( x (t)). Som ovenfor kan følgende opstilles. T (t) = T ( a) + λ t t2 2 ( v j [H( a + c t t v j ) H( a)] v j ) (7.10) for et c t (0, 1). Da λ = λ > 0, eksisterer der et ε > 0 lille nok, således at hvis t < ɛ kan H( a + c t t v j ) H( a)) HS gøres mindre end λ 2. Ved indsættelse fås: T (t) T ( a) + λ t 2 4 for alle t < ɛ. Altså er der blevet konstrueres punkter y K, som ligger tæt på a og det gælder, at T ( y) < T ( a). Det kan herfra konkluderes, at a er et saddelpunkt. Et kritisk punkt kan altså karakteriseres ud fra følgende kriterier: 38 T ( a) er lokalt minimum hvis alle egenværdier til T s Hesse matrix er positive.

47 7.4. Opsamling T ( a) er lokalt maksimum hvis alle egenværdier til T s Hesse matrix er negative. T ( a) er saddelpunkt hvis egenværdierne antager T s Hesse matrix både pos. og neg. værdier. Hvis T er lokalt minimum (maksimum) siges funktionen at være positivt(negativt) definit. Hvis T er saddelpunkt siges funktionen at være indefinit. Da en metode til karakterisering af kritiske punkter nu er defineret, er alle værktøjerne der skal bruges til optimering af en funktion præsenteret. 7.4 Opsamling Gennem dette kapitel er der redegjort for værktøjer til bestemmelse af lokalt ekstremum og ekstremalpunkt for en funktion. Samlet set kan disse metoder skæres ned til en række regler som skal opfyldes før et punkt på en funktion er lokalt ekstremum. Tilstrækkeligt kriterium: Som tidligere vist er ethvert ekstremalpunkt et kritisk punkt, men dog ikke omvendt, da det kritiske punkt kan være et saddelpunkt. Altså er det tilstrækkeligt for et lokalt ekstrema, at ekstremalpunktet er et kritisk punkt. Nødvendigt kriterium: For at vide sig sikker på, at et kritisk punkt er ekstremalpunkt er der blevet udviklet værktøjer fra Hesse matricen. Det er vist, at hvis Hesse matricen er positiv/negativ definit i et kritisk punkt vil punktet være et ekstremalpunkt. 39

48 Optimeringsmetoder 8 I følgende kapitel vil der blive introduceret to forskellige optimeringsmetoder, Newton metoden og Gradient Descent; begge metoder itererer. Hver metode finder et kritisk punkt. De to metoder vil efterfølgende i kapitel 9 blive benyttet i praksis, i forbindelse med forskellige testfunktioner. 8.1 Newton Newton metoden behandles efter (Wade, 2010) [kapitel 7 afsnit 7,5] og (Turner, 2000). Den første metode der vil blive præsenteret er Newton Raphsons metode, der udledes til Newton metoden. Newton metoden vil først blive behandlet for en variabel og derefter med flere variabler. Newton Raphson metoden tager udgangspunkt i Taylor approksimation af 1. orden og bruges til, at finde rødder for en homogen ligning f. Metoden tager afsæt i et kvalificeret gæt x 0, hvortil funktionens tangent f i punktet x 0 findes. Udfra sætning 7 kan det formuleres: f(x) f(x 0 ) + f (x 0 )(x x 0 ) (8.1) Approksimationen sættes lig 0, for at finde rødderne af f(x). 40

49 8.1. Newton Ved omskrivning isoleres x 0 = f(x 0 ) + f (x 0 )(x x 0 ) x = x 0 f(x 0) f (x 0 ) (8.2) Definition 16 (Newton Raphson) Lad f : I R hvor n N og f er differentiabel samt kontinuert. Så defineres Newton Raphson således. x n = x n 1 f(x n 1) f (x n 1 ) (8.3) Metoden illustreres i figur 8.1. Figur 8.1. Illustration af Newton Raphson For at metoden skal fungere, er der tre kriterier, som skal være opfyldt: 1. Funktionen skal være differentiabel. 2. Funktionen skal have en skæring med x-aksen. 3. Der skal vælges et passende startpunkt 41

50 Kapitel 8. Optimeringsmetoder Grunden til det 3. kriterium er, så metoden undergår uendelige løkker, hvilket illustreres i figur 8.2 Figur 8.2. Illustration af uendelige løkker For at forstå hvad der sker i Newton Raphson metoden, ønskes det bevist at x n konvergerer. Dette gøres ud fra følgende sætning Sætning 18 Lad f : [a, b] R er kontinuert på [a, b] og f(c) = 0 for et c (a, b). Hvis f er to gange differentiabel, f er begrænset på (a, b), og der eksisterer et ε 0 > 0, så f (x) ε 0, for alle x (a, b), så findes et lukket interval I (a, b), hvor c I. Givet et x 0 I defineres følgen {x n } n N som x n = x n 1 f(x n 1) f, for n N (8.4) (x n 1 ) Så gælder x n I og x n c for n. Bevis 15 Tag M > 0 så f (x) M for alle x (a, b). Vælg et passende r 0, så I = [c r 0, c + r 0 ] (a, b), og r 0 < ε 0 M. Sæt r = r 0M. Bemærk, at r 0M < ε 0 ε 0 M ε 0 ε 0 M = 1, så r < 1. Da r < 1 må rn 0 når n går mod, må x n c 0 når n går mod, hvis x n c r n x 0 c (8.5) 42

51 8.1. Newton er opfyldt, hvorved det vises, at x n c når n går mod. Yderligere kan det vises, at x n I hvis x n c r 0 (8.6) holder for alle n N. Hvis det kan vises, at kriterierne 8.5 og 8.6 er opfyldt vil sætningen være bevist. 8.5 og 8.6 bevises ved induktion. Basistrin(n = 0): x 0 c r 0 x 0 c = x 0 c Da x 0, c I må x 0 c r 0, og 8.6 er derfor opfyldt for n = 0. Induktionstrin: Antag, at x n 1 c r n 1 x 0 c (8.7) og x n 1 c r 0 (8.8) Ved hjælp af Taylors formel kan der findes et punkt ξ mellem c og x n 1 således følgende formel gælder for f(c) = 0. f(x n 1 ) = f(c) f(x n 1 ) = f (x n 1 )(c x n 1 ) f (ξ)(c x n 1 ) 2. Fra 8.4 fås f(x n 1 ) = f (x n 1 )(c x n 1 ) f (ξ)(c x n 1 ) 2 f (x n 1 )(x n c) = 1 2 f (ξ)(c x n 1 ) 2 (x n c) = f (ξ) 2f (x n 1 ) (c x n 1) 2 f (ξ) x n c = 2f x n 1 c 2 M x n 1 c 2 (8.9) (x n 1 ) 2ε 0 43

52 Kapitel 8. Optimeringsmetoder Da M ε 0 < 1 r 0 følger det fra 8.8 og 8.9, at x n c M x n 1 c 2 M x n 1 c 2 1 r 0 2 = r 0 2ε 0 ε 0 r 0 Herved er 8.6 bevist. På samme fremgangsmåde, som set i 8.9 og 8.7 fås, x n c M (r n 1 x 0 c ) 2 = r (r 2n 2 x 0 c 2 ) r 2n 1 x 0 c ε 0 r 0 r < 1 og 2n 1 n medfører, at r 2n 1 r n. Ved det foregående må x n c r 2n 1 x 0 c r n x 0 c, hvilket beviser 8.5, og derved afsluttes beviset. Eksempel 7 Find x = 9. Dette kan omskrives til f(x) = 0 = x 2 9 Hvorved vi har et polynomium af anden grad. For at kunne bestemme x ved Newton Raphson metoden skal funktionen først differentieres: f (x) = 2x Disse to kan nu plottes ind i funktionen, hvorefter der kan itereres. Der gættes x 0 = 6. x 1 = = 3.75 x 2 = x 3 = Allerede ved tredje iteration kan det ses, at metoden nærmer sig resultatet med nogenlunde nøjagtighed. Det er nu blevet bevist hvorledes Newton Raphson metoden fungerer. Dette udvides til Newton metoden. 44

53 8.1. Newton Newton metoden I dette afsnit behandles Newton metoden. Newton metoden udspringer af Newton Raphson metoden. Newton metoden anvender iteration til, at finde nulpunkter for den afledede funktionen altså, hvor f (x) = 0. Newton Metoden vil først blive beskrevet med en variabel og bagefter udvides til flere variabler. Ved anvendelse af Taylors formel i 1. ordens afledede, kan udtrykket opskrives, hvor f : I R: f (x) f (x 0 ) f (x 0 )(x x 0 ) Da det ønskes at finde f (x) = 0 sættes approksimationen lig 0 0 = f (x 0 ) f (x 0 )(x x 0 ) x = x 0 f (x 0 ) f (x 0 ) Newton metoden anvender iteration, derfor anvendes x n i stedet for x. Definition 17 (Newton metoden) Lad f : I R, hvor n N, f er to gange differentibel på I samt kontinuert på I, så defineres Newton metoden således: x n = x n 1 f (x n 1 ) f (x n 1 ) Newton af flere variable Anvendes metoden til at finde nulpunkter for en funktion med to eller flere variable, bruges den afledede af Taylors formel af flere variable. f( x) f( x 0 ) + D (2) f( x 0 )( x x 0 ). (8.10) Funktionen sættes lig nul, da det ønskes at finde nulpunkter for funktionen, altså f(x) = 0. Dette sættes ind i højresiden fra = f( x 0 ) + [D (2) f( x 0 )]( x x 0 ) f( x 0 ) = [D (2) f( x 0 )]( x x 0 ) [ 1 x x 0 = D (2) f( x 0 )] f( x0 ) [ 1 x = x 0 D (2) f( x 0 )] f( x0 ) 45

54 Kapitel 8. Optimeringsmetoder Newton metoden er en algoritme, som virker gennem approksimation, under forudsætning af at de 2. ordens partielt afledede til et punkt kan beregnes, Hesse matricen har en invers og at iterationen ikke danner en løkke. Opfyldes forudsætningerne beskrives Newton metoden ved en følge { x n } n N, som konverger mod et kritisk punkt, for en funktion f. Dette fører til definition: Definition 18 (Newton metoden af flere variable) Lad f : V R m, n N, de dobbelt partielle afledede eksisterer på domænet og f er kontinuert på domænet, så defineres Newton metoden som [ 1 x n = x n 1 D (2) f( x n 1 )] f( x x 1 ). (8.11) Newton metoden af flere variable, vil blive brugt på et problem senere i projektet. 8.2 Gradient descent Afsnittet er baseret på følgende kilder (Chong and Zak, 2004),(Meza, 2012)(Freund, 2004),(Chiang, 2007) og (Nocedal and Wright, 1999). I følgende afsnit vil Gradient Descent blive præsenteret. Metoden benyttes til at finde et minimumspunkt. Arbejdes der mod at finde et maksimumspunkt, anvendes metoden Gradient Ascent. Det kan forekomme, at der findes et saddelpunkt i processen. Ved Funktioner hvor der et forekommer saddelpunkt, vil det være oplagt at benytte Hesse matricen til, at klassificere det kritiske punkt, som saddelpunkt eller minimumspunk. Hvis der forekommer et saddelpunkt, vælges der er nyt startpunkt. Gennem afsnittet vil metoden blive præsenteret i forbindelse med en funktion f af flere variable. Når der arbejdes med Gradient Descent arbejdes der ud fra gradienten. For en funktion f : R m R hvor gradienten er fundet, vil retningen hvor f( x) peger, være retningen hvor funktion f stiger mest fra punktet x. Den retning hvor f( x) peger, er retningen hvor f falder mest, fra punktet x (jf. afsnit 3.6 sætning 2). For at finde frem til et minimumspunkt, er det optimalt at arbejde ud fra retningen hvor den negative gradient peger, i forbindelse med Gradient 46

55 8.2. Gradient descent Descent. Omvendt for at finde et maksimum, vil den optimale retning, være retningen hvor den positive gradient peger. På funktionens domæne vælges et x 0, der betegnes som et startpunkt og efterfølgende undersøges f i punktet x 0 α f( x 0 ), hvor α er en skalar. Ved hjælp af Taylors formel af flere variable (kapitel 66.10) er det muligt at opstille understående formel, hvor o(α) betegner restledet. f( x 0 α f( x 0 )) = f( x 0 ) + f( x 0 ) ( α f( x 0 )) ( α f( x 0)) T D 2 f( x 0 tα f( x 0 ))( α f( x 0 )) = f( x 0 ) α f( x 0 ) α2 f( x 0 ) T D 2 f( x 0 tα f( x 0 )) f( x 0 )) = f( x 0 ) α f( x 0 ) 2 + o(α) For t (0, 1) Hvis f( x 0 ) 0, vælges et α > 0 tilstrækkeligt lille, så det gælder, at f( x 0 α f( x 0 )) < f( x 0 ) Dette betyder at x 1 α f( x 1 ) er en forbedring i forhold til punktet f( x 0 ) for at finde et minimums punkt. For at formulere en metode, der indeholder overstående betegnelse, antages det, at der gives et startpunkt x n. For at finde punktet x n+1, der er en forbedring i forhold til x n, startes der derfor ved punktet x n og flyttes afstanden α n f( x n ), hvor α n er en positiv skalar, der bestemmer afstandstørrelsen. Det fører til en følge {x n } n N, som defineres rekursivt ved følgende definition Definition 19 (Gradient Descent) Ved en funktion f : R m R udtrykkes følgen {x n } n N rekursivt som x n+1 = x n α n f( x n ) for n N Ved Gradient Descent varierer størrelsen af gradienten i takt med søgeprocesse; gradienten nærmer sig 0 i takt med tilnærmelse af minimumspunktet. Det er 47

56 Kapitel 8. Optimeringsmetoder fra tidligere i definition 13 bevist, at når gradient i et punkt er lig 0, så er punktet et kritisk punkt. Det er muligt at tage meget små trin eller tage store trin ved hver iteration. Den først nævnte fremgangsmåde resulterer i en meget arbejdskrævende metode, eftersom der vil være en del trin og der ved hvert trin beregnes gradient for det givne punkt, men gør endepunktet mere præcist og kan derved undgå løkker. Den sidst nævnte fremgangsmåde kan resultere i et mindre antal beregninger af gradienten, men endepunktet kan være mindre præcist. Altså kan metoden i nogle tilfælde risikere ikke konvergere at mod et minimumspunkt, hvis trinene er for store. Gradient Descent fungerer som en algoritme, hvor afstanden α n, mellem trinene, er valgt for at opnå det maksimale fald af funktionen for hvert individuelle trin. Exact line search Her er α n specielt valgt til at minimere φ n (α) f( x n α f( x n )). Dette kan formuleres som α n = argmin α 0 f( x n α f( x n )) argmin referere til argumentet for minimum i den givne funktion. Hvis funktionen er lineær findes der ikke altid et minimum i funktion φ n (α). Det optimale fald opnås ved Eksakt Line Search, men metoden kan være enten umulig eller meget tidskrævende at gennemføre i praksis. Derfor nævnes nogle alternative muligheder 48 Faldende afstandstørrelse Hvor α n = α 0 n Konstant afstandstørrelse

57 8.2. Gradient descent Hvor α n = α 0 Opsamling på Gradient Descent: For hvert trin startende fra punktet x n, arbejdes der langs linjen i retningen f( x n ) indtil et minimum er fundet. Dette ses på figur 8.3. På figur 8.3 er der indtegnet niveaukurve hvor det gælder, at c 0 > c 1 > c 2 > c 3. Punktet x antages for at være et minimumspunkt. Det ses på figuren at hvert gæt nærmer sig minimumspunktet. Figur 8.3. Illustration af Gradient Descent Gradient Descent arbejder sig frem ved, at hvert step bevæger står ortogonalt på niveaukurverne. Sætning 19 Lad f : R m R. Hvis { x n } n=0 er en Gradient Descent følge for f, vil det gælde for hvert, at x n+1 x n er ortogonal på x n+2 x n+1, for alle n N. Bevis 16 49

58 Kapitel 8. Optimeringsmetoder Ud fra iterations formlen af metoden Gradient Descent gælder følgende x n+1 x n, x n+2 x n+1 = α n α n+1 f( x n ), f( x n+1 ) for at fuldføre beviset er det nok at vise at f( x n ), f( x n+1 ) = 0 Observer at α n er en ikke-negativ skalar, der minimerer φ n (α) f( x n α f( x n )). Ved at benytte funktionen φ n, af en variabel, antages et lokalt ekstremum i et punkt α n, så er den afledede lig med 0. Ved hjælp af kædereglen. 0 = φ n(α n ) = dφ n dα (α n) = f( x n α n f( x n )) T ( f( x n )) = f( x n+1 ), f( x n ) Dette fuldender beviset. Ovenstående sætning indebærer at f( x n ) er parallel med tangentplanen til niveaumængden {f( x) = f( x n+1 )} i x n+1. I den følgende sætning vises, at funktionsværdierne aftager i følgen {x n }. Sætning 20 Lad f : R m R. Hvis { x n } n=0 er en Gradient Descent følge for f, og f( x n) 0, gælder det at f( x n+1 ) < f( x n ) Bevis 17 Følgen x n konstrueres efter følgende iterationsregel x n+1 = x α n f( x n ) Hvor α n 0 er valgt således at 50 φ n (α) = f( x n α f( x n ))

59 8.2. Gradient descent Beviset er fuldendt ved, at vise det er gældende at φ n ikke kan være konstant for α n 0. Det gælder, at f( x n+1 ) = φ n (α n ) φ n (0) = f( x n ) Hvis f( x n+1 ) = f( x n ), så gælder φ n (0) = φ n (α) for alle α 0. Hvis φ n er konstant vil φ n(α) = 0, så gælder det følgende, at 0 = φ n(0) = dφ n dα (0) = ( f( x n 0 f( x n ))) T f( x n ) = f( x n ) 2 hvilket er i modstid, fordi den negative gradient skal være mindre end 0 før det er gældende at f( x n+1 ) = φ n (α n ) φ n (0) = f( x n ) Ved hjælp af ovenstående er det bevist at metoden benyttet sig af f( x n+1 ) < f( x n ) hvis f( x n ) 0. Hvis det for n gælder at f( x n ) = 0 betyder det, at punktet x n opfylder kriteriet for et kritisk punkt. I dette tilfælde gælder det at x n+1 = x n. Dette kan benyttes som et stoppekriterium for Gradient Descent. Kriteriet, f( x n+1 ) = 0, er ikke velegnet som et praktisk stoppekriterium, da den numeriske beregning af gradienten sjældent vil være lig nul. Der nævnes derfor nu to forskellige stoppekriterier: Et hvor der tjekkes om gradientens længde bliver mindre end en toleranceværdi τ og et andet, hvor der tjekkes om funktionsværdien af to x-værdier følgende hinanden, bliver mindre end en toleranceværdi. f( x n ) < τ f( x n+1 ) f( x n ) < τ 51

60 Kapitel 8. Optimeringsmetoder Hvor τ > 0 er den fastlagte toleranceværdi. Et tredje alternativt stoppekriterium er, at finde normen x n+1 x n, og der stoppes når normen er mindre end tolerancen x n+1 x n < ε Gradient Descent er som tidligere nævnt en algoritme. Som opsamling vil metoden skreves som en algoritme: Graidient Descent Algoritme Trin 0: Givet x 0, sæt n := 0, og bestem en tolerance τ. Trin 1: d n := f( x n ). Hvis, f( x n ) τ så stop. Trin 2: Beregn/fastsæt afstandsstørrelsen α n. Trin 3: Sæt x n+1 som x n + α n d n, erstat n med n + 1. Derefter gå tilbage til Trin 1. Gennem kapitlet er der blevet dannet en forståelse for hvorledes henholdsvis Newton metoden og Gradient Descent virker. Følgende kapitel vil benytte dem i praksis. 52

61 Optimeringsproblemer 9 Gennem kapitlet vil der blive udført nogle eksempler der illustrerer hvorledes Newton metoden og Gradient Descent fungerer. Der vil også benyttes Newton program, der ved hjælp af computeren, kan beregne kritiske punkter i forbindelse med Newton metoden. Der arbejdes først med Newton metoden. 9.1 Newton Metoden Newton metoden af flere variable vil nu blive brugt til at optimere Rosenbrock funktionen (Jorge J. Moré and Hillsrom, 1981) givet nedenunder. f(x, y) = (1 x) (y x 2 ) 2 Funktionen illustreres i figuren nedenunder. Figur 9.1. Illustration af Rosenbrock funktionen 53

62 Kapitel 9. Optimeringsproblemer For at finde Hesse Matricen og gradienten, beregnes først de partielle afledede og de dobbelt partielle afledede til funktionen f(x, y) f x (x, y) = 2 + 2x + 100( 4yx + 4x 3 ) f y (x, y) = 100(2y 2x 2 ) f xx (x, y) = ( 4y + 12x 2 ) f yy (x, y) = 200 f xy (x, y) = 400x Hesse matricen og gradienten vil derfor se således ud f(x, y) = ( 2 + 2x + 100( 4yx + 4x 3 ))e 1 + (100(2y 2x 2 ))e 2 [ ] ( 4y + 12x 2 ) 400x H(x, y) = 400x 200 Hesse matricen og gradienten er nu udregnet, hvorfra der vælges et gæt på funktionens domæne. I dette tilfælde vælges punktet(-1.2,1), hvorfra Hesse matricen og gradienten beregnes til det pågældende punkt. [ ] H( 1.2, 1) = f( 1.2, 1) = 215.6e 1 + ( 88e 2 ) Da der ønskes at finde Hesse matricens invers, beregnes den nu til. [ ] 1 H( 1.2, 1) ( 1) = Gradienten og den inverse Hesse matrix indsættes i formlen for Newton metoden af flere variable for at finde den næste iteration. [ ] [ ] [ ] [ ] x 1 = = Metoden fortsætter med at iterere, til en god approksimation er fundet for et kritisk punkt, de forskellige iterationer kan ses nedenunder. Udregninger for 54

63 9.1. Newton Metoden iterationer, kan findes i det vedlagte bilag A [ ] x [ ] x [ ] x [ ] x [ ] x Newton metoden har nu fundet en god approksimation, for et kritisk punkt for f(x, y). I dette tilfælde er det punktet (1, 1), det undersøges nu om punktet er et minimum, maksimum eller et saddelpunkt. For at finde ud af det, findes først Hesse matricen i punktet (1, 1). [ ] H(1, 1) Herefter findes egenværdierne for matricen [ ] 802 λ 400 H λi 2 = λ det(h I 2 ) = (802 λ)(200 λ) ( 400)( 400) = λ λ = ( 1002) ± ( 1002) = λ 1 = 1001, 601 λ 2 = 0, Udfra udregningerne angives Hesse matricen som positiv definit, altså at punktet (1, 1) er et minimum for funktionen f(x, y). Hvilket illustreres på figuren nedenunder. 55

64 Kapitel 9. Optimeringsproblemer Figur 9.2. Illustration af Rosenbrock funktion, med et kritisk punkt. 9.2 Newton program Newton programmet er præsenteret i bilag(b). Hvor der er angivet hvorledes programmet fungerer. Programmet vil nu blive brugt for at finde et kritisk punkt, for Freudenstein og Roth funktionen (?) f(x, y) = ( 13 + x + ((5 y)y 2)y) 2 + ( 29 + x + ((y + 1)y 14)y) 2 Funktionen illustreres i figuren nedenunder Figur 9.3. Illustration af "Freudenstein and Roth function". 56

65 9.2. Newton program Et startpunkt vælges x 0 = (0.5, 2) og efter 6 iterationer finder Newton Programmet et minimum i punktet (x, y) = (11.413, 0.897), hvor f(11.413, 0.897) = Udregningerne fra Newton programmet ligger i vedlagte bilag(c). Nedenunder illustreres ekstrema punktet på funktionens domæne. Figur 9.4. Illustration af "Freudenstein and Roth function"med kritisk punkt. 57

66 Kapitel 9. Optimeringsproblemer 9.3 Gradient Descent Der vil nu blive vist hvorledes Gradient Descent metoden kan bruges i praksis. Metoden vil blive brugt på en funktion af to variable der er angivet under f(x, y) = 5x 2 + 5y 2 + 6xy 4x + 4y + 9 Funktionen illustreres herunder Figur 9.5. Illustration af funktionen Trin 0: Der gives et startpunkt x 0 = (x, y) = (2, 1), og der fastsættes en tolerance τ = Trin 1: Der udregnes f(x, y) og sættes til d n [ ] 10x + 6y 4 d n = f(x, y) = 10y + 6x + 4 Punktet x 0 indsættes [ ] [ ] d 0 = f(2, 1) = = Der beregnes normen f(x 0 ) f(x 0 ) = =

67 9.3. Gradient Descent Da normen af gradienten ikke er mindre end tolerancen τ = , fortsættes der til næste trin. Trin 2: Beregn α n ved hjælp af Exact Line Search φ(α) = f(x n α f(x n )) φ(α) =5(x + αd n1 ) 2 + 5(y + αd n2 ) 2 + 6(x + αd n1 )(y + αd n2 ) 4(x + αd n1 ) + 4(y + αd n2 ) For at finde den optimale værdi af α findes nu den afledede til funktion φ(α) φ (α) =10αd 2 n αd 2 n αd n1 d n2 + 10d n1 x + 6d n2 x + 6d n1 y + 10d n2 y 4d n1 + 4d n2 Den optimale værdi til afstandsværdien vil bleve betegnet som et kritisk punkt, derfor sættes den afledede φ (α) = 0, herefter isoleres α. 0 =10αd 2 n αd 2 n αd n1 d n2 + 10d n1 x + 6d n2 x + 6d n1 y + 10d n2 y 4d n1 + 4d n2 α n = 2(5d n 1 x) + 6d n2 x + 6d n1 y + 2(5d n2 y) 4d n1 + 4d n2 2(5d n1 + 5d n2 + 6d n1 d n2 ) Da det ønskes at der ikke skal være nogen variable x og y, vil disse blive udledt vha. gradienten hvor der stilles to ligninger med to ubekendte d n1 = 10x 6y + 4 d n2 = 10y 6x 4 Her gives resultatet x = 3d n d n y = 3d n d n

68 Kapitel 9. Optimeringsproblemer Disse to værdier sættes nu ind på x og y s plads i ligningen α n α n = 2(5d n 1 ( 3dn dn )) 6d n 2 ( 3dn dn ) 2(5d n1 + 5d n2 + 6d n1 d n2 ) + 6d n 1 ( 3dn dn ) 2(5d n 2 ( 3dn dn )) 2(5d n1 + 5d n2 + 6d n1 d n2 ) 4d n1 4d n2 + 2(5d n1 + 5d n2 + 6d n1 d n2 ) Dette kan forkortes til α n = d 2 n 1 + d 2 n 2 2(5d n1 + 5d n2 + 6d n1 d n2 ) Trin 3: Der beregnes punktet x 1 = x 0 + α 0 d 0 x 1 = (x, y) = ( , ) Dette punkt vil nu blive brugt som det nye startpunkt, derfor startes der forfra ved Trin 1. De følgende resultater vil blive sat ind i tabel 9.1 og 9.2. n x n y n d n1 d n Tabel 9.1. Tabel over resultaterne for udregning af Gradient Decent 60

69 9.3. Gradient Descent n d n α n f(x n ) Tabel 9.2. Fortsættelse af tabel over resultaterne for udregning af Gradient Decent Som det ses ud fra tabel 9.1 og 9.2, Så findes der et minimumspunkt i (x, y) = (1, 1), hvor f(1, 1) = 5. Ved brug af startpunktet x 0 = (x, y) = (2, 1) er der blevet brugt 8 iterationer for at komme frem til det rette minimumspunkt. Figur 9.6 illustrere funktionen med det beregnede minimumspunkt. Figur 9.6. Illustration af funktionen med iterationer. 61

70 Litteratur Adams, R. A. and C. Essex (2010). Calculus A Complete Course. Pearson. Chiang, P. M. (2007). Optimization of communication systems, lecture 5: Gradient and distributed algorithms. Sidst set 08 december Chong, E. K. P. and S. H. Zak (2004). An introduction to optimization. Sidst set 08 december Cornean, H. (2012). On the local akstrema for functions of severl variables. Sidst set 26 november Freund, R. M. (2004). The steepest descent algorithm for unconstrained optimization and a bisection line-search method. Sidst set 08 december Jorge J. Moré, B. S. G. and K. E. Hillsrom (1981). ACM Transactions on Mathematical Software, Volume 7. Argonne National Laboratory. Khan, S. (2011). Proof: Bounding the error or remainder of a taylor polynomial approximation. Sidst set 08 december Meza, J. C. (2012). Steepest descent. Sidst set 08 december Nocedal, J. and S. Wright (1999). Numerical optimization: Chapter 3 - line search methods. Sidst set 08 december Turner, P. R. (2000). Guide to Scientific Computing. Macmillan press LTD. Wade, W. R. (2010). An Introduction to Analysis. Pearson. 62

71 Bilag A 63

72 Kapitel A. Bilag 64

73 65

75 67

77 69

78 70 Bilag B

79 71

80 Kapitel B. Bilag 72

81 #1: Programmets input: "f- Funktionen der skal findes ekstrema på. "n- Antal af iterationer der tillades. "tol- Tolerancen. "x11"og "x22- x og y værdi på det kvalificerede gæt. #2: Her står der definitionerne, der bliver brugt igennem programmet. #3: Tolerancen bliver defineret til "t1". #4 og #5: Funktionen bliver partielt differentieret f x1 og f x2. Gradienten bliver udledt. #6 og #7: f x1 og f x2 bliver defineret til "f1 "f2", med "x1"og "x2"som variabler. #8 og #9: Gættet "x11"og "x22", bliver defineret til henholdsvis "x"og "y". #10: Der udregnes f x1x1 (x, y) og defineres til "q- Indgang 1 i hessematricen. #11: Der udregnes f x1x2 (x, y) og defineres til "r- Indgang 2 i hessematricen. #12: Der udregnes f x2x1 (x, y) og defineres til "s- Indgang 3 i hessematricen. #13: Der udregnes f x2x2 (x, y) og defineres til "t- Indgang 4 i hessematricen. #14 og #15: Hessematricen bliver udskrevet med q, r, s, t som indgange. #16 og #17: Egenværdierne til Hessematricen bliver udregnet og udskrevet. #18 og #19: Der bliver tjekket om Hessematricen er positiv definit og udskriver svaret. #20 og #21: Gradienten (f x1 og f x2 ) bliver ganget med 1 og defineres til "u"og "v". #22: Determinanten af hessematricen. #23 og #24: Den nye og x og y værdi bliver udregnet. #25, #26, #27 og #28: Den nye "x"og "y"bliver defineret. #29: De nye værdier bliver udkrevet. #30, #31, #32 og #33: Hvis længden imellem den nye og den gamle koordinat er strengt mindre end tolerancen, bliver resultatet af den seneste iteration udskrevet. Hvis det modsatte kører programmet igennem igen fra "label_6". 73

82 Kapitel B. Bilag [ ] 1 a11 a 12 = 1 [ ] a22 a 12 a 21 a 22 det a 21 a 11 [ ] [ ] [ ] t r u 1 tu + vr ( 1) s q v det = ( 1) 1 su qv det 74

83 Bilag C 75

Vis mere