Matematisk optimering. - Iterative metoder

Transkript

1 Matematisk optimering - Iterative metoder Aalborg Universitet Institut for Matematiske fag Gruppe G3-112 MAT3 Efteråret 2012

2

3 AALBORG UNIVERSITET INSTITUT FOR MATEMATISKE FAG SYNOPSIS: TITEL: Matematisk optimering - Iterative metoder PROJEKT PERIODE: Fra 3. september til 20. december 2012 PROJEKTGRUPPE: Daniel Hillerström Enok Johannes Haahr Kristensen Joana Angelica Rodzewicz Sohnesen Mathias Ruggaard Pedersen Niclas Mosskov Andersen Rolf Sommer Poulsen VEJLEDER: Martin Hubert Raussen OPLAGSTAL: 9 ANTAL SIDER: 66 ANTAL APPENDIKS: 3 I rapporten undersøges iterative optimeringsmetoder, der søger efter et punkt, hvor en given funktion antager ekstremum. Det bevises, at dette punkt skal opfylde et helt generelt nødvendigt kriterium, at gradienten i punktet er nul, samt et tilstrækkeligt kriterium, der knytter sig til de andenordensafledede. At tjekke det tilstrækkelige kriterium kræver nøjagtige udregninger, hvilket ikke altid kan foretages. Der afgrænses til at se på konvekse funktioner, der højst har ét minimum, hvorefter overordnede principper for iterative metoder og herunder linjeafsøgninger gennemgås. En iterativ metode, der arbejdes med, er Newton-metoden for funktioner af én variabel, hvor konvergens af algoritmen med konstant linjeafsøgning bevises. Dernæst generaliseres metoden til flere variabler, hvor der gives en konvergensanalyse for algoritmen med en backtracking linjeafsøgning. Konvergensanalyserne af Newtonmetoden viser, at metoderne under visse forudsætninger konvergerer kvadratisk. Sidste iterative metode, der inddrages, er gradientmetoden, hvor konvergens af algoritmen bevises for eksakt og backtracking linjeafsøgning. De iterative metoder er implementeret i Matlab, og afprøvninger af algoritmerne på to konvekse funktioner samt Rosenbrock-funktionen bekræfter, at Newton-metoden konvergerer hurtigt, og det observeres, at gradient-metoden konvergerer meget langsomt, når gradienten af den givne funktion er lille. Til slut illustreres, hvordan iterative metoder kan anvendes til lineær regression, og med Newtonmetoden findes en forskrift for et konkret datasæt. Gruppe MAT3-G3-112

4

5 Forord Denne rapport er udarbejdet af seks studerende på 5. semester på Aalborg Universitet. Projektets overordnede tema er matematisk optimering, og under emnet er det valgt at skrive om iterative metoder. Algoritmerne inddraget i denne rapport er alle skrevet i programmet Matlab, og kildekodefilerne hertil kan ses på projekthjemmesiden: G Matlab er derudover også brugt til at fremstille de graferne, som er indkluderet i rapporten, med mindre andet er nævnt. Rapporten igennem bliver vektorer angivet med en vektorpil, eksempelvis x, mens matricer angives med stort bogstav, for eksempel I. f er notationen for den førsteordens afledede af en funktion f, imens f angiver den andenordens afledede, og derudover angiver f (n) den n te ordens afledede. I rapporten betegnes infimum med inf, supremum med sup, domænet af en funktion f betegnes domf, og Int(S) angiver de indre punkter for mængden S. Sidst i rapporten findes en litteraturliste, og der henvises til kilder ved brug af Harvard-metoden, hvilket betyder, at kilden angives med forfatter og udgivelsesår, eksempelvis (Boyd og Vandenberghe [2009]). Aalborg den 20. december Joana Angelica Rodzewicz Sohnesen Daniel Hillerström Niclas Mosskov Andersen Mathias Ruggaard Pedersen Enok Johannes Haahr Kristensen Rolf Sommer Poulsen v

6

7 Indholdsfortegnelse Forord v Kapitel 1 Oversigt 1 Kapitel 2 Introduktion til matematisk optimering 3 Kapitel 3 Grundlæggende resultater Ekstrema Differentiabilitet Kritiske punkter Taylor-udvikling Taylor-udvikling for funktioner af én variabel Taylor-udvikling for en funktion af flere variable Tilstrækkeligt kriterium Konvekse funktioner Problemer med analytiske løsninger Kapitel 4 Iterative metoder Linjeafsøgning Konstant eller aftagende skridtlængde Eksakt linjeafsøgning Ineksakt linjeafsøgning Newton-metoden for funktioner af én variabel Motivation af Newton-metoden Konvergensanalyse Optimeringsproblem løst med Newton-metoden Newton-metoden for funktioner af flere variabler Motivation af Newton-metoden Newton-dekrementet Konvergensanalyse Gradientmetoden Motivation af gradientmetoden Konvergensanalyse Den generelle steepest descent metode Euklidisk norm Kvadratisk norm Kapitel 5 Eksempler 41 vii

8 5.1 Optimering af en funktion på kvadratisk form Newton-metoden med backtracking linjeafsøgning Gradientmetoden med eksakt linjeafsøgning Optimering af konveks funktion i Matlab Optimering af Rosenbrock-funktionen i Matlab Lineær Regression Eksempel på de mindste kvadraters metode Kapitel 6 Konklusion 51 Litteratur 53 Bilag A Normer Bilag B Følger og konvergens Bilag C Implementering i Matlab C.1 Implementeringsstrategi C.2 Indkapsling af hyppigt anvendte funktioner C.3 Algoritmen C.4 Linjeafsøgninger C.4.1 Eksakt linjeafsøgning C.4.2 Ineksakt linjeafsøgning viii

9 Oversigt 1 I dette afsnit gives en oversigt over indholdet i rapporten. I kapitel 2 gives en kort introduktion til matematisk optimering, hvor det valgte fokus for projektet beskrives. I kapitel 3 defineres grundlæggende begreber, herunder ekstrema samt kritiske punkter. Det bevises, at et ekstremum nødvendigvis er et kritisk punkt, og for at nå frem til et tilstrækkeligt kriterium inddrages Taylorudviklinger for funktioner af én og flere variable. Desuden præsenteres konvekse funktioner, hvis egenskaber vil spille en central rolle i senere beviser. I kapitel 4 arbejdes med Newton-metoden og gradientmetoden, som er to iterative metoder. Først præsenteres generelle principper for iterative metoder, der finder minima, og kort er principperne, at man går en bestemt skridtlængde i en retning, hvor funktionen aftager. Forskellige metoder til at finde skridtlængden præsenteres, herunder eksakt, konstant og backtracking linjeafsøgning. Dernæst arbejdes med en optimeringsmetode kaldet Newton-metoden for funktioner af én variabel, og et konvergensbevis gives for algoritmen med konstant skridtlængde. Metoden generaliseres dernæst til flere variabler, og under forudsætning af backtracking linjeafsøgning gives en analyse af metodens konvergens. Gradientmetoden uddybes dernæst, og konvergens af denne bevises for eksakt og backtracking linjeafsøgning. Sidst i kapitlet indføres begreberne den normaliserede og unormaliserede stejleste nedstigningsretning, som anvendes til at knytte Newton- og gradientmetoden sammen. Algoritmerne er implementeret i Matlab, og i kapitel 5 gives eksempler, hvor konkrete optimeringsproblemer er forsøgt løst. De regnetekniske principper uddybes for en simpel funktion, og for to mere komplicerede funktioner sammenlignes punkterne, der fremkommer ved iterationerne hver i algoritmerne, og der ses nærmere på deres konvergensrater. Der afsluttes med et eksempel på en anvendelse, hvor det illustreres, hvordan en lineær regression kan findes ved brug af algoritmerne. Endeligt opsummeres rapportens vigtigste pointer og resultater i konklusionen i kapitel 6. 1

10

11 Introduktion til matematisk optimering 2 Med udgangspunkt i kilden (Snyman [2005]) gives her en kort introduktion til optimering. Helt formelt er matematisk optimering en proces i to trin, hvor problemet først formuleres og dernæst løses. Matematiske optimeringsproblemer er karakteriserede ved, at der søges efter det input, en funktion, f, skal have for at antage minimum eller maksimum. Optimering kan generelt foretages med hensyn til en række betingelser eller begrænsninger, og et matematisk optimeringsproblem, hvor der søges efter punktet, hvor f antager minimum, kan udtrykkes på følgende måde: min f( x), x R n x med hensyn til betingelserne g j ( x) < 0, j = 1, 2,..., m h j ( x) = 0, j = 1, 2,..., t, hvor f er funktionen, kaldet objektfunktionen, der optimeres, og g j samt h j angiver henholdsvis uligheds- og lighedsbetingelsefunktionerne, som optimeringen skal opfylde. Komponenterne i x angiver variablerne, der indgår i optimeringen, og et punkt, der minimerer funktionen kaldes et optimalt punkt. Hvis problemet ikke involverer betingelser eller begrænsninger, kaldes problemet et ubegrænset minimeringsproblem. Det er problemer af denne type, der arbejdes med i dette projekt, og der ses udelukkende på skalarfunktioner og reelle tal. Matematisk optimering bliver også kaldt matematisk programmering og beskrives generelt som videnskaben, der arbejder med at bestemme de bedst mulige løsninger til et matematisk problem. Optimeringsproblemer kan eksempelvis være at bestemme den mest energivenlige model for en struktur eller sikre mest muligt gennemløb i en produktion. Mulige problemer er altså ikke begrænsede til et enkelt felt, men spænder vidt fra modeller fra fysikkens verden til at inddrage økonomiske og finansielle overvejelser. 3

12

13 Grundlæggende resultater 3 Før vi begynder at undersøge iterative metoder til optimering, er det nødvendigt at definere begreber, som anvendes i optimering generelt. Først præsenterer vi en definition af ekstremum, som er funktionsværdien til punktet, der søges i optimeringsproblemer. Dernæst gives et nødvendigt kriterium for et ekstremum, og ved anvendelse af Taylorudviklinger bevises et tilstrækkeligt kriterium, der kan bruges som grundlag for at se på de iterative metoder. Til sidst defineres konvekse funktioner, hvis egenskaber vil ligge til grund for analysen af de iterative metoder. 3.1 Ekstrema For at definere ekstrema indfører vi først begrebet om en åben kugle, som benyttes i definitionen af ekstrema. Definition (Wade [2010], definition 10.7). Den åbne kugle med centrum i x 0 R n og radius r > 0 er defineret ved B r ( x 0 ) := { x R n : x x 0 2 < r}. Her betyder 2 den euklidiske norm, hvorom der kan læses nærmere i appendiks A. Definition (Wade [2010], definition 10.8). Lad X betegne et metrisk rum, og lad V X. i) V kaldes åben, hvis og kun hvis der for ethvert x V findes et ε > 0, således at den åbne kugle B ε ( x) V. ii) V kaldes lukket, hvis og kun hvis V c := X\V er åben. Definition (Wade [2010], definition 11.50). Lad V være en åben delmængde af R n, lad c V, og antag at f : V R. i) f antager lokalt minimum i c, hvis og kun hvis der findes et r > 0, således at f( c) f( x) for alle x B r ( c). ii) f antager lokalt maksimum i c, hvis og kun hvis der findes et r > 0, således at f( c) f( x) for alle x B r ( c). iii) f( c) er et lokalt ekstremum for f, hvis og kun hvis f( c) er et lokalt maksimum eller lokalt minimum for f. 5

14 Det største lokale maksimum kaldes desuden det globale maksimum, mens det mindste minimum kaldes det globale minimum. 3.2 Differentiabilitet Ifølge definition er det nødvendigt at undersøge de omkringliggende funktionsværdier for at afgøre, om f( x 0 ) er et ekstremum, og i så fald om det er et minimum eller maksimum. Til dette bruger man den afledede af funktionen omkring punktet x 0. I dette afsnit vil vi derfor introducere begreber vedrørende de afledede, der vil blive brugt gennem rapporten. Definition (Wade [2010], definition 11.12). Lad x 0 R n, og lad V være en åben mængde indeholdende x 0. Lad f : V R. f er differentiabel i x 0, hvis og kun hvis der findes en lineær afbildning T L (R n ; R), så der for tilstrækkeligt små h 2 gælder, at ɛ( h) := f( x 0 + h) f( x 0 ) T ( h) opfylder, at ɛ( h)/ h 2 0 for h 0. f er differentiabel på en ikke-tom mængde, hvis og kun hvis f er differentiabel i alle punkter i mængden. Sætning (Wade [2010], sætning 11.14). Lad x 0 R n, og lad V være en åben mængde, som indeholder x 0. Lad f : V R. Hvis f er differentiabel i x 0, så eksisterer alle de førsteordens partielle afledede af f i x 0. Den afledede af f i x 0 er unik og kan udregnes ved: f x 1 ( x 0 ) f f( x 0 ) = x 2 ( x 0 ).. (3.1) f x n ( x 0 ) Denne vektor kaldes gradienten af f i punktet x 0. Beviset for sætningen er her udeladt, men kan findes i Wade [2010]. Ligeledes kan man tage de andenordens partielle afledede og udtrykke disse som en matrix. Definition (Adams og Essex [2010], sætning 3 side 746). Lad f(x 1, x 2,..., x n ) være en funktion af n variabler. Hvis de andenordens partielle afledede eksisterer i punktet x 0, er dens Hesse-matrix givet ved 2 f ( x x 2 0 ) 1 2 f D (2) x f( x 0 ) := 2 x 1 ( x 0 ). 2 f x n x 1 ( x 0 ) 2 f x 1 x 2 ( x 0 ) 2 f x 1 x n ( x 0 ) 2 f ( x x 2 0 ) 2 f x 2 2 x n ( x 0 ) f x n x 2 ( x 0 ) 2 f ( x x 2 0 ) n 6

15 Bemærk, at Hesse-matricen er symmetrisk, hvis de blandede afledede er ens, det vil sige, at 2 f x i x j ( x 0 ) = 2 f x j x i ( x 0 ), hvor i, j = 1, 2... n. (3.2) Det kan bevises, at dette er opfyldt, når de partielle afledede eksisterer og er kontinuerte, som vist i sætning 11.2 i (Wade [2010]). Nu har vi set på de første- og andenordens afledede, som begge er vigtige begreber, der har fået tildelt egne termer. Vi kan dog generalisere yderligere og tale om afledede af p te orden og udtrykke disse ved summer. Definition (Wade [2010], side 420). Lad x 0 R n, og lad V være en åben mængde indeholdende x 0. Lad f : V R og lad p 1. f har en p te ordens afledede i x 0, hvis og kun hvis den (p 1) te ordens partielle afledede af f eksisterer på V og er differentiabel i x 0. Så er den p te ordens afledede defineret ved D (p) f( x 0 ; h) := n i 1 =1 hvor h = (h 1,..., h n ) R n. n i p=1 p f x i1... x ip ( x 0 )h i1 h ip, Det kan bevises, at hvis de afledede for en funktion f er begrænsede, så er f Lipschitzkontinuert (Searcoid [2007]). Definition (Boyd og Vandenberghe [2009] og Searcoid [2007]). Lad x, y R n og lad f : V R, hvor V R n. f er Lipschitz-kontinuert, hvis f( x) f( y) 2 L x y 2, hvor L 0 er Lipschitz-konstanten. 3.3 Kritiske punkter Med de afledede defineret kan vi nu undersøge, hvordan ekstrema og afledede hænger sammen. Vi starter med at definere et kritisk punkt. Definition (Adams og Essex [2010], sætning 1 side 744). Lad f : R n R. c kaldes et kritisk punkt for f, hvis f( c) = 0. Den næste sætning angiver et nødvendigt kriterium for ekstrema. Sætning (Wade [2010], bemærkning 11.51). Lad V R n være en åben mængde indeholdende c. Lad f : V R. Hvis den afledede af f eksisterer i punktet c, og hvis f antager et ekstremum i c, så er f( c) = 0. 7

16 Bevis. Der indføres en hjælpefunktion af én variabel g(t): g(t) := f(c 1, c 2,... c j 1, t, c j+1,... c n ). (3.3) For at denne funktion har et lokalt ekstremum i t = c j, for alle j = 1, 2,... n, skal dens afledede være 0. Denne kan udtrykkes ved: f x j ( c) = g (c j ) = 0 (3.4) Da dette skal gælde for alle j = 1, 2,... n, og da er f( c) = 0. Det bemærkes, at det modsatte ikke nødvendigvis er sandt. Det vil sige, at der findes funktioner med kritiske punkter, hvor funktionerne ikke antager ekstrema. Disse punkter kaldes sadelpunkter. Se eksempelvis på funktionen f(x) = x 3 vist i figur f(x) x Figur 3.1. Funktionen f(x) = x 3. Det ses, at det kritiske punkt hverken er et minimum eller maksimum, men et sadelpunkt. Her er f (0) = 0, men ud fra figur 3.1 er det tydeligt, at der ikke er tale om et ekstremum. f( c) = 0 kaldes derfor som sagt et nødvendigt kriterium for ekstremumsbestemmelse, men der findes også et tilstrækkeligt kriterium. For at kunne bevise dette indføres nu Taylor-udviklinger. 3.4 Taylor-udvikling I dette afsnit introduceres Taylors formel, som ved hjælp af en Taylor-udvikling, beskriver en funktion med et såkaldt Taylor-polynomium og et restled. Tilsammen beskriver Taylor-polynomiet og restleddet en funktion fuldstændigt. Denne omskrivning kan gøre funktionen lettere at arbejde med, da polynomier er kontinuerte funktioner, der er nemme at differentiere. 8

17 3.4.1 Taylor-udvikling for funktioner af én variabel Først ses på Taylor-udviklinger for funktioner af én variabel, og følgende sætning viser, hvordan en funktion kan omskrives til en sum af et polynomium og et restled. Sætning (Wade [2010], sætning 4.24). Lad p N, og lad (a, b) være udvidede reelle tal, hvor a < b. Hvis f : (a, b) R, og hvis f (p+1) eksisterer på (a, b), så er der for ethvert par x, x 0 (a, b) et tal ξ mellem x og x 0, således at f(x) = ˆf p (x) + f (p+1) (ξ) (p + 1)! (x x 0) p+1, (3.5) hvor ˆf p (x) er Taylor-polynomiet, også kaldet Taylor-approksimationen, af grad p omkring punktet x 0 defineret ved: ˆf p (x) = f(x 0 ) + p k=1 f (k) (x 0 ) (x x 0 ) k. (3.6) k! Det observeres, at ˆf p (x 0 ) = f(x 0 ), ˆf p(x 0 ) = f (x 0 ),..., ˆf (p) p (x 0 ) = f (p) (x 0 ). Desuden bemærkes, at da f (p+1) eksisterer, er alle de afledede op til p te orden, f,..., f (p), kontinuerte. Bevis. Der vælges et fast x 0 og x, og det antages, at x 0 < x. En konstant M defineres således, at f(x) = ˆf p (x) + M(x x 0 ) p+1, (3.7) hvilket medfører, at M = f(x) ˆf p(x) (x x 0 ) p+1. Kan det vises, at der eksisterer et ξ mellem x 0 og x, så M kan skrives f (p+1) (ξ) (p+1)!, er sætningen bevist. En hjælpefunktion g(t) indføres, således at g(t) := f(t) ˆf p (t) M(t x 0 ) p+1. (3.8) Denne evalueres i x og x 0 : g(x) = f(x) ˆf p (x) M(x x 0 ) p+1 = f(x) ˆf p (x) f(x) ˆf p (x) (x x 0 ) p+1 (x x 0) p+1 = 0 (3.9) g(x 0 ) = f(x 0 ) ˆf p (x 0 ) M(x 0 x 0 ) p+1 = 0 (3.10) Da g(t) er kontinuert på [x 0, x], differentiabel på (x 0, x), og g(x 0 ) = g(x), gælder ifølge Rolles sætning ([Wade, 2010] lemma 4.12) at der findes et x 1 (x 0, x), således at g (x 1 ) = 0. Den afledede af hjælpefunktionen er g (t) = f (t) ˆf p(t) M(p + 1)(t x 0 ) p. (3.11) 9

18 Denne evalueres i x 0 : g (x 0 ) = f (x 0 ) f (x 0 ) M(p + 1)(x 0 x 0 ) p = 0. (3.12) Da g (t) er kontinuert på [x 0, x 1 ], differentiabel på (x 0, x 1 ), og g (x 0 ) = g (x 1 ), kan Rolles sætning benyttes igen, og der findes et x 2 (x 0, x 1 ), således, at g (x 2 ) = 0. Ved anvendelse af Rolles sætning p + 1 gange, findes et x p+1 (x 0, x p ) så g (p+1) (x p+1 ) = 0. Den (p + 1)- afledede af hjælpefunktionen er g (p+1) (t) = f (p+1) (t) M(p + 1)!. (3.13) Punktet x p+1 indsættes, og konstanten M isoleres i g (p+1) (x p+1 ) = 0, så M = f (p+1) (x p+1 ). (3.14) (p + 1)! Da x p+1 (x 0, x p ) er x p+1 (x 0, x), og x p+1 opfylder da betingelsen om at ligge mellem x og x 0, hvorfor denne kan kaldes ξ. Dette indsættes i ligning 3.7, så f(x) = ˆf p (x) + f (p+1) (ξ) (p + 1)! (x x 0) p+1. (3.15) Ækvivalente udregninger kan laves for x 0 > x. Taylor-udviklinger er fordelagtige i optimeringsproblemer, da man ved hjælp af disse er i stand til at karakterisere ekstrema. Ved hjælp af sætning kan en Taylor-udvikling af første orden skrives, f(x) = f(x 0 ) + f (x 0 )(x x 0 ) + f (ξ) (x x 0 ) 2. (3.16) 2 Som det blev set i sætning 3.3.2, kan en funktion kun have et ekstremum i et punkt x 0, hvis x 0 er et kritisk punkt. I et kritisk punkt bliver ligning 3.16: f(x) = f(x 0 ) + f (ξ) (x x 0 ) 2. (3.17) 2 Det ses, at denne ligning kun består af et andenordensled og et konstantled. Det må derfor gælde, at f(x) > f(x 0 ) f (ξ) > 0 f antager lokalt minimum i x 0 (3.18) f(x) < f(x 0 ) f (ξ) < 0 f antager lokalt maksimum i x 0 (3.19) Så hermed ses, hvordan det med en Taylor-udvikling, kan afgøres, om en funktion af én variabel har et minimum eller maksimum i et kritiske punkt Taylor-udvikling for en funktion af flere variable Efter at have set på en Taylor-udvikling for en funktion af én variabel, undersøges nu Taylor-udviklinger for funktioner af flere variabler. 10

19 Sætning (Wade [2010], sætning 11.37). Lad p N og lad V være åben i R n. Antag, at x, x 0 V og, at f : V R. Hvis det (p+1) te ordens differentiale af f eksisterer på V, og linjestykket imellem x og x 0, L( x, x 0 ) er en delmængde af V. Så eksisterer der et punkt ξ L( x, x 0 ), således at f( x) = ˆf p ( x) + 1 (p + 1)! D(p+1) f( ξ; h) for h := x x 0, (3.20) hvor ˆf p ( x) er Taylor-polynomiet, også kaldet Taylor-approksimationen, af grad p omkring punktet x 0 defineret ved: ˆf p ( x) = f( x 0 ) + p k=1 1 k! D(k) f( x 0 ; h), (3.21) Bevis. Lad h = x x 0. Vælg et δ > 0 så tilpas lille, at x 0 +t h V for ethvert t i intervallet I δ = [ δ, 1 + δ]. Ved hjælp af kædereglen differentieres funktionen F (t) := f( x 0 + t h) med hensyn til t: F (t) = Df( x 0 + t h)( h) = n k=1 f x k ( x 0 + t h)h k. (3.22) Den j te-afledede af F (t) med hensyn til t er ifølge definition givet ved: F (j) (t) = n i 1 =1 n i j =1 Derudover må det gælde, at j f x i1 x ij ( x 0 + t h)h i1 h ij for j = 1, 2,..., p + 1. (3.23) F (j) (0) = f (j) ( x 0 ) = D (j) f( x 0 ; h) for j = 1, 2,..., p. (3.24) F (p+1) (t) = f (p+1) ( x 0 + t h) = D (p+1) f( x 0 + t h; h) for t I δ. (3.25) Det ses, at F (t) er differentiabel på I δ [0, 1]. Tages nu forskellen mellem F (1) og F (0) og bruges den endimensionale Taylor-udvikling fra ligning 3.5 på funktionen af én variabel, F (t), fås, at F (1) F (0) = f( x 0 + h) f( x 0 ) = f( x) f( x 0 ) p 1 = j! F (j) 1 (0) + (p + 1)! F (p+1) (t) for et t (0, 1). (3.26) j=1 Bruges nu ligningerne 3.24 og 3.25 og sættes ξ = x 0 + t h, fås, at f( x) = f( x 0 ) + p j=1 1 j! D(j) f( x 0 ; 1 h) + (p + 1)! D(p+1) f( ξ; h) for et t (0, 1). (3.27) Fremover droppes indekset på Taylor-approksimationer, da ordenen fremgår klart af sammenhængen. 11

20 3.5 Tilstrækkeligt kriterium Efter at have præsenteret Taylor-udviklinger er vi nu klar til at bevise det tilstrækkelige kriterium. Her viser det sig, at fortegnet på elementerne i Hesse-matricen har betydning for, hvordan funktionen opfører sig omkring de kritiske punkter. Dette kaldes definiteness af en matrix, hvilket nu vil blive defineret. Definition (Simon og Blume [1994], side 379). Lad A være en symmetrisk n n matrix og lad x R n. Så er A 1. positiv definit, hvis x T A x > 0 for alle x positiv semidefinit, hvis x T A x 0 for alle x negativ definit, hvis x T A x < 0 for alle x negativ semidefinit, hvis x T A x 0 for alle x indefinit, hvis x T A x 0 for nogle x 0 og x T A x 0 for andre x 0. Som konsekvens af denne definition gælder det følgende sætning. Sætning (Wade [2010], lemma 11.55). Lad V være åben i R n, x 0 V, og lad f : V R. Hvis alle de andenordens partielle afledede af f eksisterer i x 0, og i) D (2) f( x 0 ) er positiv definit, så findes et m > 0 således, at D (2) f( x 0 ; x) m x 2 2 for alle x Rn. ii) D (2) f( x 0 ) er negativ definit, så findes et M < 0 således, at D (2) f( x 0 ; x) M x 2 2 for alle x Rn. Bevis. Funktionen g( x) indføres som: g( x) = D (2) f( x 0 ; x), x R n. (3.28) Vælg definitionsmængden H = { x R n : x 2 = 1}. Da g( x) er et polynomium ud fra definition 3.2.4, er den kontinuert, og i) positiv på H, hvis D (2) f( x 0 ) er positiv definit, og ii) negativ på H, hvis D (2) f( x 0 ) er negativ definit. Da H er et lukket og begrænset interval, følger det af ekstremalværdisætningen (Wade [2010], sætning 3.26), at g i tilfælde i) må have et minimum, m, på H, og at g i tilfælde ii) må have et maksimum, M, på H. Af definition ses, at både første og anden del af sætningen er opfyldt for x = 0, idet n n x i x j = 0 og x 2 = 0. i=1 j=1 For x 0, må x/ x 2 H. Derfor fås, g( x) = D (2) f( x 0 ; x) = g( x) x 2 x 2 2 = g 2 ( x x 2 ) x 2 2, (3.29) og i tilfælde i) hvor g har en positiv minimumsværdi, kan følgende ulighed opskrives: D (2) f( x 0 ; x) m x 2 2. I tilfælde ii) hvor g har en negativ maksimumsværdi, opskrives følgende ulighed: D (2) f( x 0 ; x) M x 2 2. Sætningen er hermed opfyldt for alle x Rn. 12

21 Sætning (Wade [2010], sætning 11.56). Lad V være åben i R n, c V, f : V R, og lad c være et kritisk punkt, og antag at differentialet af anden orden af f eksisterer på V og er kontinuert i det kritiske punkt. For h R n gælder følgende: i) Hvis D (2) f( c; h) > 0, for alle h 0, så antager f et lokalt minimum i c. ii) Hvis D (2) f( c; h) < 0, for alle h 0, så antager f et lokalt maksimum i c. iii) Hvis D (2) f( c; h) antager både positive og negative værdier for nogle h 0, så har f et sadelpunkt i c. Bevis. Vælg et r > 0, så B r ( c) V. På denne måde ses på funktionsværdier i en omegn af det kritiske punkt, som alle ligger i definitionsmængden. Sidst i beviset vil det vises, at der findes en funktion ɛ : B r ( 0) R, som opfylder, at ɛ( h) 0 for h 0, samt at f( c + h) f( c) = 1 2 D(2) f( c; h) + h 2 2ɛ( h), (3.30) når h 2 2 er lille. i) Hvis D (2) f( c) er positiv definit, følger det af sætning 3.5.2, at f( c + ( m ) h) f( c) 2 + ɛ( h) h 2 2. (3.31) Da h 2 > 0 for h 0 og m > 0 ses fra kravet til ɛ( h), at venstresiden af ligning 3.31 er større end 0 for h 0. Dette medfører, at f( c + h) > f( c) for alle h tilstrækkeligt tæt på det kritiske punkt. Altså er c et lokalt minimum. ii) Hvis D (2) f( c) er negativ definit, følger det som før af sætning 3.5.2, at ( ) f( c + M h) f( c) 2 + ɛ( h) h 2 2. (3.32) Her er M < 0, og med samme argumenter som før, ses, at venstresiden af ligning 3.32 er mindre end 0 for h 0. Dette medfører, at f( c + h) < f( c) for alle h tilstrækkeligt tæt på det kritiske punkt. Altså er c et lokalt maksimum. iii) For t R medfører ligning 3.30: f( c + t h) f( c) = 1 2 D(2) f( c; t h) + t h 2 2ɛ(t h) ( ) 1 = t 2 2 D(2) f( c; h) + h 2 2ɛ(t h) ( 1 = t 2 h 2 2 D(2) f( c; ) h) 2 + ɛ(t h). (3.33) h 2 2 Da t 2 er større end 0 for alle t 0, og ɛ(t h) 0 for t 0, må venstresiden have samme fortegn som D (2) f( c; h) for små værdier af t. Så når D (2) f( c) er indefinit, vil der både være steder, hvor funktionsværdien i det kritiske punkt er større end og mindre end nogle omkringliggende værdier. Deraf følger, at c er et sadelpunkt. Det vil nu vises, at funktionen ɛ eksisterer. Definer ɛ( 0) = 0. Når h B r ( 0), hvor h 0, defineres ɛ ved ɛ( h) := f( c + h) f( c) 1 2 D(2) f( c; h). (3.34) h

22 ɛ opfylder dermed ligning For at se om ɛ( h) 0 for h 0 vælges et fast h B r ( 0). Da c er et kritisk punkt, giver Taylors formel i sætning 3.4.2, at der findes et ξ på linjestykket mellem c og c + h, således, at en andenordens Taylor-udvikling kan skrives: f( c + h) f( c) = 1 2 D(2) f( ξ; h) (3.35) Samme led trækkes fra på begge sider, og udtrykket på højre side skrives ud med udtrykket i definition 3.2.4: f( c + h) f( c) 1 2 D(2) f( c; h) = 1 ( D (2) f( ξ; 2 h) D (2) f( c; ) h) = 1 n n ( 2 ) f ( ξ) 2 x j x 2 f ( c) h i h j (3.36) i x j x i j=1 i=1 For nu at omskrive det sidste i ligningen benyttes, at h 4 2 = ( h h 2 2 ( n) h 2 i + h 2 ) 2 j = h i h j h i 2 2 h j 2 2 h i 2 2 h j 2 2 = h i h j 2 2 h 2 2 h i h j 2. (3.37) Tages den numeriske værdi på begge sider, og erstattes summen over h i h j med h 2 2 i ligning 3.36, og divideres der efterfølgende med h 2 2 på begge sider af ligningen, fås følgende: ɛ( h) n n j=1 i=1 ( 2 f x j x i ( ξ) ) 2 f ( c) x j x i. (3.38) Absolutværdien af ɛ( h) er altid større end eller lig med 0, og for h 0 vil ξ gå mod c. Da de andenordens afledede er kontinuerte, vil udtrykket på højre side i ligning 3.38 ligeledes gå mod 0. Derfor vil den definerede funktion ɛ( h) 0 for h 0. Hermed er det vist, at funktionen, anvendt i del i)-iii) eksisterer. 3.6 Konvekse funktioner Inden for optimering arbejdes der i høj grad med en speciel type funktioner, kaldet konvekse funktioner. Disse har blandt andet den egenskab, at de højst kan have ét minimum, hvilket gør dem velegnede som objektfunktioner. Da det ikke giver mening at snakke om konvekse funktioner defineret på ikke-konvekse mængder, defineres først konvekse mængder. Definition (Boyd og Vandenberghe [2009], side 23). V er en konveks mængde, hvis linjestykket imellem to givne punkter i V ligger i V. Det vil altså sige, at det for alle x 1, x 2 V gælder, at t 1 x 1 + t 2 x 2 V, hvor 0 t 1, t 2 1 og opfylder, at t 1 + t 2 = 1. 14

23 Definition (Rudnev [2009], definition 1). En funktion f : V R kaldes konveks på den lukkede konvekse mængde V R n, hvis det for x 1 x 2 gælder, at f(t 1 x 1 + t 2 x 2 ) t 1 f( x 1 ) + t 2 f( x 2 ) for alle x 1, x 2 V, t 1 + t 2 = 1. f kaldes konkav, hvis og kun hvis f er konveks. Definitionen for en konveks funktion i én dimension har en simpel geometrisk fortolkning. Definitionen kræver, at funktionsværdierne for en konveks funktion imellem to givne punkter skal være mindre eller lig med funktionsværdierne for korden mellem de to punkter, som det ses på figur 3.2. En ikke-konveks funktion er vist på figur 3.3. Figur 3.2. Her ses en funktion, hvor korden mellem to vilkårlige punkter ligger over grafen og funktionen er derfor konveks. Figur 3.3. Her ses en funktion, hvor korden mellem to punkter nogle steder er over grafen og andre steder under, og funktionen er derfor ikke konveks. Følgende sætning viser, hvorfor konvekse funktioner er egnede som objektfunktioner. Sætning (Rudnev [2009], sætning 3). Hvis en funktion f : V R er konveks, og domænet af f er konvekst, vil et lokalt minimum være et globalt minimum. Bevis. Sætningen bevises ved modstrid: Antag x 0 er et lokalt minimum, men at der eksisterer et x 1, således at f( x 1 ) < f( x 0 ), hvor x 0, x 1 domf. Da domænet af f er konvekst, skal linjestykket imellem x 0 og x 1 ligge i det samme domæne. Definitionen af konvekse funktioner giver, at et punkt x, som ligger på linjestykket imellem x 0 og x 1, kan skrives som: f( x) t 0 f( x 0 ) + t 1 f( x 1 ) < f( x 0 ). (3.39) Da x kan komme vilkårligt tæt på x 0, er ligningen ovenfor en modstrid med det faktum, at x 0 er et lokalt minimum, hvorfor det må gælde, at f( x 1 ) f( x 0 ) for alle x 1 domf. Dermed må det gælde, at f( x 0 ) er et globalt minimum. En anden type mængde, der er relevant for vores arbejde med optimering er underniveaumængder. 15

24 Definition (Boyd og Vandenberghe [2009], side 75). En mængde S kaldes en α- underniveaumængde for f, hvis S = { x domf f( x) α}. Underniveaumængder har følgende interessante egenskab i forhold til konveksitet. Sætning (Boyd og Vandenberghe [2009], side 75). Enhver underniveaumængde S af en konveks funktion f er konveks. Bevis. Antag, at f er en konveks funktion, lad S være en vilkårlig α-underniveaumængde for f, og lad x og y være to vilkårlige elementer, så x, y S. Så er det givet fra konveksitet af f, at f(t 1 x + t 2 y) t 1 f( x) + t 2 f( y), (3.40) hvor t 1 + t 2 = 1. Da S er en α-underniveaumængde for f, er f(x) α og f(x) α. Det fås derfor, at f(t 1 x + t 2 y) t 1 f( x) + t 2 f( y) α. (3.41) Dette betyder, at f(t 1 x + t 2 y) S, og S er derfor konveks. Udover konveksitet findes begrebet stærk konveksitet. Definition (Boyd og Vandenberghe [2009], side 459). En to gange kontinuert differentiabel funktion f er stærk konveks, hvis og kun hvis der for alle x domf eksisterer et m > 0, således at D (2) f( x) mi, hvor I angiver identitetsmatricen. Bemærk, at definitionen medfører, at D (2) f( x) mi er positiv semidefinit. En konsekvens af stærk konveksitet for f er, at underniveaumængderne for f er begrænsede nedadtil. For at se dette, tager vi en førsteordens Taylor-udvikling omkring punktet x 0 : f( x) = f( x 0 ) + f( x 0 ) T ( x x 0 ) ( x x 0) T D (2) f( ξ)( x x 0 ), (3.42) hvor ξ L( x, x 0 ). Hvis f er stærk konveks, fås det at f( x) f( x 0 ) + f( x 0 ) T ( x x 0 ) ( x x 0) T mif( ξ)( x x 0 ) = f( x 0 ) + f( x 0 ) T ( x x 0 ) + m 2 x x (3.43) Hvis m = 0, svarer kriteriet til kriteriet for ikke-stærk konveksitet, men da m > 0, fås der en stærkere begrænsning af f( x). Stærk konveksitet giver derfor en begrænsning nedadtil for f, og lader vi domænet af f være en vilkårlig α-underniveaumængde S, har f desuden 16

25 en begrænsning opadtil givet ved α. Dette medfører, at alle underniveaumængder for f må være begrænsede. Hvis f er to gange kontinuert differentiabel, må D (2) f derfor også være begrænset opadtil på mængden S, hvilket vil sige, at der eksisterer et M > 0, så D (2) f( x) MI for alle x S. (3.44) 3.7 Problemer med analytiske løsninger For at optimere funktioner har vi i dette kapitel set, at det er nødvendigt at finde de punkter, hvor gradienten af funktionen er lig med 0, og når de kritiske punkter er fundet, giver sætning en metode til at afgøre, om punkterne er lokale maksima, minima eller sadelpunkter. Denne helt generelle metode forudsætter dog, at man er i stand til at bestemme de kritiske punkter. Generelt kan dette ikke gøres analytisk. Lad os for eksempel se på funktionen f(x, y) = x ln(x) y ln(y) + e x + x, som er plottet i figur 3.4. Figur 3.4. Funktionen f(x, y) = x ln(x) y ln(y) + e x + x. Det ses tydeligt, at denne har mindst ét lokalt ekstremum. Hvis denne skal findes med redskaberne præsenteret i dette kapitel, findes først gradienten: ] [ ] ln(x) e f(x, x + 2 y) = = (3.45) ln(y) 1 [ f x f y Idet gradienten dernæst sættes lig med 0, fås y = e 1 men at løse ligningen ln(x) + 2 = e x analytisk er besværligt. Er f eksempelvis et polynomium af femte eller højere orden, kan ligningen f = 0 generelt ikke løses analytisk. Så der findes altså tilfælde, hvor funktionen grafisk tydeligt ses at have et ekstremum, men hvor metoderne beskrevet indtil nu ikke er anvendelige. I næste kapitel ses derfor på numeriske metoder til optimering, hvor de kritiske punkter approksimeres iterativt. 17

26

27 Iterative metoder 4 I dette kapitel ses på to iterative optimeringsmetoder, henholdsvis Newton- og gradientmetoden. Denne indledning er skrevet med udgangspunkt i kilden (Boyd og Vandenberghe [2009]). Det ønskes at løse problemet: min f( x), x hvor f : V R er konveks og to gange kontinuert differentiabel, og V R n. Det antages, at der findes et kritisk punkt c for f, som grundet konveksitetsbetingelsen er et optimalt punkt, så det globale minimum er givet ved inff( x) = f( c). (4.1) Da f er differentiabel og konveks, er det nødvendige og tilstrækkelige kriterium, for at c er optimal, at f( c) = 0. (4.2) Der skal altså findes en løsning til et ligningssystem med n ligninger og n variabler. Som vist i afsnit 3.7 er dette ikke altid muligt analytisk, og i stedet søges problemet løst med iterative algoritmer. Fælles for denne type af algoritmer er, at de frembringer en minimerende følge af punkter x 0, x 1,... domf, hvor f( x k ) f( c), når k. Det vil sige, at f( x k+1 ) < f( x k ), (4.3) medmindre x k = c, hvilket medfører, at f( x k+1 ) = f( c). I appendiks B kan læses mere om følger og konvergens af disse. Algoritmen terminerer, når f( x k ) f( c) ɛ, hvor ɛ > 0 er en specificeret toleranceværdi, der angiver, hvor præcist problemet ønskes løst. Generelt er algoritmernes iterationsformel givet ved x k+1 = x k + λ k x k, k N, (4.4) hvor x k kaldes søgeretningen eller nedstigningsretningen, k iterationsnummeret og skalaren λ k skridtlængden. Disse begreber vil blive uddybet i løbet af kapitlet. Den generelle nedstigningsalgoritme, der frembringer en minimerende følge, kan opsummeres: 19

28 Algoritme 4.1 Generel steepest descent metode (Boyd og Vandenberghe [2009]) Givet et startpunkt x domf Gentag 1. Bestem en nedstigningsretning x. 2. Linjeafsøgning. Vælg en skridtlængde λ > Opdater. x := x + λ x. indtil termineringsbetingelsen er opfyldt. Det bemærkes, at en konkav funktion, g, kan optimeres med præcis samme metode, hvis f = g. I de følgende afsnit motiveres Newton-metoden og gradientmetoden, der anvender forskellige søgeretninger, og det bevises, at de frembragte følger, under visse forudsætninger, konvergerer mod det optimale punkt. Inden da gives en gennemgang af linjeafsøgningen, som anvendes i algoritmerne, og har afgørende betydning for, hvor hurtigt algoritmerne konvergerer. 4.1 Linjeafsøgning Skridtlængden λ k i trin 2 i algoritme 4.1 kan vælges på forskellige måder, og de forskellige måder har både fordele og ulemper. Hvis λ k vælges for lille, vil algoritmen konvergere meget langsomt mod det optimale punkt, mens algoritmen i visse tilfælde ikke vil konvergere mod det optimale punkt, hvis λ k vælges for stor. Én mulighed er at foretage en eksakt linjeafsøgning, hvilket gøres ved at finde det λ k, der minimerer f( x k +λ k x k ). I praksis øger en eksakt linjeafsøgning dog beregningstiden betragteligt, og det vil i mange tilfælde ikke være muligt at bestemme det eksakte minimum. Derfor kan det være en bedre strategi at approksimere λ k via en ineksakt linjeafsøgning eller blot at vælge en lille skridtlængde, som eventuelt aftager i hver iteration af algoritmen (Boyd og Vandenberghe [2009]) og (Sun og Yuan [2006]) Konstant eller aftagende skridtlængde En simpel og i visse tilfælde effektiv metode til at bestemme skridtlængden er at vælge en konstant værdi κ for skridtlængden, så λ k = κ for alle k. Med en konstant skridtlængde kan man dog ikke altid vise, at algoritmen konvergerer mod et optimalt punkt, og det kan derfor foretrækkes at benytte en mere ressourcekrævende metode til at finde skridtlængden, der dog giver bedre muligheder for konvergens. En mere specifik metode til at bestemme skridtlængden λ k er at vælge en følge {λ k }, som opfylder, at λ k 0, lim k λ k = 0 og λ k =. (4.5) k=1 Denne følge sikrer, at skridtlængden bliver mindre, hvilket ofte er ønsket, når algoritmen kommer tættere på det optimale punkt. (Boyd og Mutapcic [2007]) 20

29 4.1.2 Eksakt linjeafsøgning En eksakt linjeafsøgning finder den eksakte optimale værdi for λ k, således at funktionsværdien minimeres langs søgeretningen, det vil sige, at λ k = min λ>0 f( x k + λ x k ). (4.6) Dette kan i visse tilfælde gøres analytisk. Generelt er det dog ikke muligt, og i stedet anvendes metoder, hvor man finder den optimale værdi ved at udnytte viden om den endimensionale funktion, for eksempel om funktionen er konveks. I praksis vil sådanne metoder være approksimativt eksakte, men skridtlængden vil stadig være mere optimal end den fundet ved ineksakte linjeafsøgninger. Da det at finde skridtlængderne ved eksakt linjeafsøgning ofte forlænger beregningstiden mere, end den ekstra præcision af skridtlængden forkorter beregningstiden på den overordnede iterative metode, anvendes ofte ineksakte linjeafsøgninger, som introduceres i det følgende (Boyd og Vandenberghe [2009]) og (Sun og Yuan [2006]) Ineksakt linjeafsøgning En ineksakt linjeafsøgning er en endimensional optimeringsmetode, der, i stedet for at finde den eksakte optimale værdi, finder en værdi, der er tilstrækkelig under visse betingelser. Til dette bruges ofte Wolfe-betingelserne, som er givet ved (Nocedal og Wright [2006]) og f( x k + λ k x k ) f( x k ) + c 1 λ k f( xk ) T x k (4.7) f( x k + λ k x k ) T x k c 2 f( xk ) T x k, (4.8) hvor c 1 (0, 1) og c 2 (c 1, 1). Hvis der for hvert k defineres en funktion φ(λ k ) := f( x k +λ k x k ), kan Wolfe-betingelserne også skrives som og φ(λ k ) φ(0) + c 1 λ k φ (0) (4.9) φ (λ k ) c 2 φ (0). (4.10) Ligning 4.7 og 4.9 kaldes Armijo-betingelsen, og denne kræver, at λ k mindsker funktionsværdien for f tilstrækkeligt. Hvis højresiden af uligheden kaldes l(λ k ), kan betingelsen ses grafisk på figur 4.1 for en ikke-konveks funktion. I praksis vælges ofte en meget lille værdi for c 1, hvilket giver l(λ k ) en meget stejl, negativ hældning. Armijobetingelsen vil altid være opfyldt for meget små værdier af λ k, men vi er netop interesserede i at finde en værdi for λ k, som hverken er for lille eller for stor, og derfor bruges også betingelse 4.8 og 4.10, kaldet krumningsbetingelsen. Krumningsbetingelsen kræver, at hældningen af φ(λ k ) er en konstant gange større end hældningen af φ(0). Krumningsbetingelsen kan ses grafisk på figur 4.2 for en ikke-konveks funktion. 21

30 Figur 4.1. Armijo-betingelsen er opfyldt, hvis φ(λ k ) ligger på eller under den stiplede linje (Nocedal og Wright [2006]). Figur 4.2. Krumningsbetingelsen er opfyldt i de områder, hvor hældningen er mindst en konstant gange større end hældningen i φ(0) (Nocedal og Wright [2006]). Der findes dog også andre metoder end krumningsbetingelsen til at sikre, at λ k ikke vælges for lav. Et eksempel på dette er backtracking linjeafsøgning, som vil blive præsenteret i det følgende. Backtracking linjeafsøgning virker ved, at der vælges et startgæt λ start > 0, samt α, β (0, 1), og det tjekkes, om λ start overholder Armijo-betingelsen med c 1 = α. Overholdes dette ikke, reduceres λ start ved at gange med β, og igen tjekkes, om Armijobetingelsen er overholdt. Denne procedure gentages, indtil der er fundet et λ k, så Armijobetingelsen er overholdt, og herved undgår man at vælge et for lille λ k. I algoritme 4.2 gives en præcis beskrivelse af backtracking linjeafsøgning. 22

31 Algoritme 4.2 Backtracking linjeafsøgning (Nocedal og Wright [2006]) Vælg λ start > 0, α (0, 1) og β (0, 1), og lad λ := λ start. while f( x k + λ x k ) > f( x k ) + αλ f( x k ) T x k do λ := βλ end while λ k := λ 4.2 Newton-metoden for funktioner af én variabel Med de grundlæggende begreber på plads vil Newton-metoden for en funktion af én variabel udledes ud fra Taylor-polynomiet. Det vises, at dette er et eksempel på en steepest descent algoritme med konstant linjeafsøgning, hvor skridtlængden er lig med 1. Derudover bevises det, at metoden konvergerer mod et kritisk punkt under visse betingelser, inden der gives et eksempel på et optimeringsproblem, som løses med metoden Motivation af Newton-metoden Dette afsnit er skrevet på baggrund af kilderne (Wade [2010]) og (Raussen [2012]). Newton-metoden tager udgangspunkt i Newton-Raphson-metoden, der anvendes til at bestemme nulpunkter for funktionen f. Idéen er her, at der startes med et kvalificeret gæt, x 0, hvorefter algoritmens næste approksimation vil være nulpunktet for funktionens tangentlinje i det tidligere gæt. Selve algoritmen udledes i dette afsnit ved hjælp af Taylorpolynomiet givet i ligning 3.6. Ved at opskrive Taylor-polynomiet af første orden omkring startgættet fås følgende ligning: f(x) ˆf(x) = f(x 0 ) + f (x 0 )(x x 0 ). (4.11) Ligningen ovenfor er netop ligningen for tangentlinjen til f i punktet (x 0, f(x 0 )). Netop fordi nulpunktet til denne ønskes, sættes ligningen lig med nul og omskrives: f (x 0 )x = f (x 0 )x 0 + f(x 0 ). (4.12) Isoleres nu x, ses, at det nye punkt kan beregnes ud fra det forrige punkt. Dette gentages, og indføres den generelle notation, x = x k og x 0 = x k 1, kan følgen {x k } defineres rekursivt: x k = x k 1 f(x k 1) f (x k 1 ). (4.13) Metoden til at frembringe denne følge kaldes Newton-Raphson-metoden. I forbindelse med optimeringsproblemer ønskes det, i stedet for nulpunkter, at finde kritiske punkter for en funktion, og derfor modificeres nu Newton-Rapshon-metoden til at bestemme disse. Først indføres hjælpefunktionen h, givet ved h(x k ) := f (x k ). (4.14) Taylor-polynomiet af første orden opskrives for denne: ĥ(x k ) = h(x k 1 ) + h (x k 1 )(x k x k 1 ). (4.15) 23

32 Analogt til forrige udregninger fås, at x k = x k 1 h(x k 1) h (x k 1 ). (4.16) Bruges nu ligning 4.14, fås en iterativ metode til bestemmelse af kritiske punkter for en funktion f ved hjælp af et kvalificeret startgæt: x k = x k 1 f (x k 1 ) f (x k 1 ). (4.17) Hermed er Newton-metoden for at finde kritiske punkter udledt ved hjælp af et Taylorpolynomium. Sammenlignes ligning 4.17 med den generelle nedstigningsalgoritme i algoritme 4.1, ses, at søgeretningen er f (x)/f (x), samt at skridtlængden ved hver iteration er konstant med en værdi på 1. Det bemærkes, at Newton-metoden i én dimension har en klar geometrisk fortolkning, idet x k er x-koordinaten til punktet, hvor tangentlinjen for f i punktet (x k 1, f (x k 1 )) skærer x-aksen, som illustreret på figur 4.3. f (x) 0 x x x 0 1 x x 2 3 c Figur 4.3. Illustration af Newton-metoden. Det ses, at næste punkt fundet med Newtonmetoden er x-koordinaten, hvor tangentlinjen til f i det forrige punkt er nul. Det er illustreret, hvordan {x k } konvergerer mod c Konvergensanalyse I dette afsnit bevises, at følgen fra ligning 4.17 konvergerer imod et kritisk punkt c, som giver et globalt minimum, hvis f er konveks. 24

33 Sætning (Inspireret af Wade [2010], sætning 7.58). Antag, at f : [a, b] R er kontinuert på [a, b], f : (a, b) R er kontinuert på (a, b) og at f (c) = 0 for et c (a, b). Hvis f (3) eksisterer og er begrænset på (a, b), og der findes et ɛ 0 > 0, således at f (x) ɛ 0 for alle x (a, b), så findes et lukket interval I (a, b) indeholdende c, således at givet x 0 I, vil følgen {x k }, defineret ved x k = x k 1 f (x k 1 ) f, k N, (4.18) (x k 1 ) opfylde, at x k I, og x k c, når k. Bevis. Vælg M > 0, således at f (3) (x) M for x (a, b), og M R. Vælg r 0 (0, 1) så lille, at I = [c r 0, c + r 0 ] er et delinterval af (a, b) og r 0 < ɛ 0 /M. Antag, at x 0 I og lad følgen {x k } være defineret ved ligning Lad r := r 0 M/ɛ 0, og det bemærkes, at r < 1 grundet valget af r 0. Det skal nu vises, at og x k c r k x 0 c (4.19) x k c r 0 (4.20) er opfyldt for alle k N. Ligning 4.19 sikrer, at følgen {x k } konvergerer mod c for k, og ligning 4.20 sikrer, at følgens næste punkt x k I. Sætningen bevises ved induktion på k. Både ligning 4.19 og 4.20 er opfyldt for k = 0, idet x 0 I. Induktionsantagelsen er, at de begge er opfyldt for k 1, så og x k 1 c r k 1 x 0 c (4.21) x k 1 c r 0. (4.22) Nu benyttes en andenordens Taylor-udvikling givet i sætning omkring punktet x k 1 til at vælge et punkt ξ mellem x og x k 1, således at f(x) =f(x k 1 ) + f (x k 1 )(x x k 1 ) + f (x k 1 ) (x x k 1 ) f (3) (ξ) (x x k 1 ) 3. (4.23) 6 Denne Taylor-udvikling differentieres med hensyn til x og evalueres i c: f (x k 1 ) = f (x k 1 )(c x k 1 ) + f (3) (ξ) (c x k 1 ) 2. (4.24) 2 Fra ligning 4.18 fås det, at f (x k 1 ) = f (x k 1 )(x k x k 1 ), og det ses derfor, at f (x k 1 )(x k c) = f (3) 2 (ξ)(c x k 1) 2. (4.25) Denne løses for x k c, og det huskes, at M og ɛ 0 er valgt således, f (3) (x) M og f (x) ɛ 0. Hermed fås, f (3) (ξ) x k c = 2f (x k 1 ) x k 1 c 2 M x k 1 c 2. (4.26) 2ɛ 0 25

34 Fra ligning 4.22 og da M/ɛ 0 < 1/r 0 fås nu, x k c M ɛ 0 x k 1 c 2 1 r 0 r 0 2 = r 0. (4.27) Hermed er 4.20 bevist, og 4.19 kan bevises ud fra ligningerne 4.21 og Idet det huskes, at r := r 0 M/ɛ 0, fås, x k c M ɛ 0 (r k 1 x 0 c ) 2 = r r 0 (r 2k 2 x 0 c 2 ) = x 0 c r 0 (r 2k 1 x 0 c ). (4.28) Det huskes, at x 0 c /r 0 1, og det fås, x k c r 2k 1 x 0 c. (4.29) Da r < 1, og 2k 1 k, bliver r 2k 1 r k, og x k c r 2k 1 x 0 c r k x 0 c. (4.30) Hermed er ligning 4.19 bevist, og følgen {x k } konvergerer mod c. Ved hver iteration kommer x k tættere på c, og metoden konvergerer hurtigt, som det ses af ligning I appendiks B er forskellige konvergensrater præsenteret, og for at undersøge konvergensraten for metoden omskrives ligning 4.26 til x k c x k 1 c 2 M 2ɛ 0. (4.31) Tages grænseværdien for k på begge sider, fås x k c 0 lim k x k 1 c 2 lim M = M. (4.32) k 2ɛ 0 2ɛ 0 Da M/2ɛ 0 ifølge definitionerne i sætningen er endelig, ses, at Newton-metoden for et passende startgæt konvergerer kvadratisk i overensstemmelse med definition B Optimeringsproblem løst med Newton-metoden Vi vil nu finde minimum for den konvekse funktion f(x) = 7x ln(x). Eksemplet tager udgangspunkt i kilden (Freund [2004a]). At funktionen er konveks kan ses på figur 4.4, hvor korden mellem to vilkårlige punkter altid ligger over grafen for funktionen. Løses problemet analytisk, findes først det kritiske punkt ved at løse ligningen f (x) = 7 1/x = 0, hvilket giver x = c = 1/7 = 0, Ved brug af sætning 3.5.3i) ses, at dette kritiske punkt er et minimum, da f (c) = 1/c 2 > 0. Det vil nu forsøges at løse samme problem ved brug af Newton-metoden. Følgen givet ved sætning bliver x k 1 x k = x k 1 f (x k 1 ) f (x k 1 ) = x k x 2 k 1 = x k 1 (7x k 1 2 x k 1 ) = 2x k 1 7x k 1 2. (4.33) I tabel 4.1 ses elementerne af denne følge for fire forskellige startgæt, som her er x 0 = 0, x 0 = 0, 01, x 0 = 0, 1 og x 0 = 1. Det ses, at følgerne der fremkommer ved gættene x 0 = 1 26

35 5 x x 1 f(x) 3.5 x 2 x 3 3 x 4 x5 x x Figur 4.4. Funktionen f(x) = 7x ln(x). Følgen fremkommet ved Newton-metoden, med startgættet x 0 = 0, 01 er plottet. De første seks iterationer er navngivet, og i alt er ti iterationer indtegnet. k x k x k x k x k 0 0 0, 01 0, , 193 0, , , , , , , , , , , , , , , , , , , , , , , , Tabel 4.1. Her ses værdier for de første ti iterationer for startgættene x 0 = 0, x 0 = 0, 01, x 0 = 0, 1 og x 0 = 1. og x 0 = 0, henholdsvis divergerer mod og forbliver 0. For gættet x 0 = 0 skyldes dette, at det ikke ligger i det lukkede interval I (a, b), da funktionen f kun er defineret for a > 0. Ifølge sætning skal vælges et r 0 (0, 1) så lille, at I [c r 0, c + r 0 ] er et delinterval af (a, b). Herved skal startgættet x 0 (0, 2/7) for, at betingelsen for konvergens er opfyldt, hvilket gælder for de to startgæt x 0 = 0, 01 og x 0 = 0, 1, der begge hurtigt konvergerer mod det kritiske punkt. Det ses, at følgen, hvor startgættet er x 0 = 0, 1 opnår en præcision på 15 betydende cifre efter seks iterationer, mens samme præcision opnås på ti iterationer, hvis startgættet er x 0 = 0, 01. For det sidste gæt x 0 = 1 gælder, at det ikke ligger i intervallet x 0 (0, 2/7), og følgen konvergerer derfor ikke. 27

36 4.3 Newton-metoden for funktioner af flere variabler I dette afsnit vil Newton-metoden generaliseres til en funktion af flere variabler ud fra Taylor-polynomiet af funktionen. Når skridtlængden findes med backtracking linjeafsøgning vil det bevises, at metoden konvergerer mod et kritisk punkt. Hele dette afsnit er skrevet med udgangspunkt i kilden (Boyd og Vandenberghe [2009]) Motivation af Newton-metoden Udledningen af iterationsformlen i flere dimensioner udnytter her, at en vilkårlig funktion, hvis andenordens afledede eksisterer, kan approksimeres omkring punktet x k 1 med et andenordens Taylor-polynomium, ˆf( x k ) = f( x k 1 ) + D (1) f( x k 1 ; x k x k 1 ) D(2) f( x k 1 ; x k x k 1 ). (4.34) Indføres afstanden mellem to følgende punkter som h := x k x k 1, ses ved brug af notationerne i definition samt matrixmultiplikation, at udtrykket kan skrives, ˆf( x k ) = f( x k 1 ) + f( x k 1 ) T h h T D (2) f( x k 1 ) h. (4.35) I et forsøg på at finde minimum af vores funktion findes minimum af den approksimerede Taylor-udvikling. Fra sætning ved vi, at ˆf kun antager minimum i et punkt, hvis gradienten i punktet er nul. Gradienten af ˆf( x k ) udregnes ˆf( x k ) = f( x k 1 ) + D (2) f( x k 1 ) h. (4.36) Dette udtryk sættes nu lig med 0. Indsættes samtidig udtrykket for h, og løses ligningen for x k, fås, at x k = x k 1 [D (2) f( x k 1 )] 1 f( xk 1 ) (4.37) x k er da det punkt, der minimerer approksimationen, ˆf, og ideen er at minimere den oprindelige funktion f ved at lave en ny Taylor-approksimation i det fundne punkt x k, som minimeres på samme måde. Denne fremgangsmåde motiverer, at søgeretningen i Newton-metoden kan beskrives: x nt = h = [D (2) f( x k 1 )] 1 f( xk 1 ) (4.38) Bemærk, at funktionens optimale punkt vil være bestemt allerede i én iteration, hvis Taylor-approksimationen i ligning 4.34 beskriver funktionen nøjagtigt. Dette er kun opfyldt for funktioner på kvadratisk form. Intuitivt kan det tænkes, at jo mindre funktionen ligner en kvadratisk form, jo flere iterationer skal bruges, før minimum er bestemt. Dette vil blandt andet blive bevist i afsnit Newton-dekrementet Inden algoritmen for Newton-metoden introduceres, og det bevises, at metoden konvergerer mod et optimalt punkt, indføres en nyttig størrelse kaldet Newtondekrementet i x: Γ( x) := ( f( x) T [D (2) f( x)] 1 f( x) ) 1/2. (4.39) 28

37 Denne spiller en vigtig rolle i konvergensanalysen og kan også fungere som termineringsbetingelse. Det indføres, at x k 1 = x, og Newton-dekrementet kan relateres til størrelsen f( x) inf ˆf( y), hvor ˆf er andenordens Taylor-approksimationen af f omkring x: f( x) inf ˆf( y) = f( x) ˆf( x + x nt ) = 1 2 Γ( x)2, (4.40) idet det ved indsættelse af Newton-skridtet, der netop minimerer ligning 4.35, fås, at ˆf( x + x nt ) =f( x) f( x) T [D (2) f( x)] 1 f( x) + 1 ( f( x) 2 ) T [D (2) f( x)] 1 D (2) f( x)( [D (2) f( x)] 1 f( x)) =f( x) 1 2 f( x) T [D (2) f( x)] 1 f( x). Ved ligning 4.40 kan Γ 2 /2 ses som et estimat af f( x) f( c), baseret på Taylorapproksimationen af f i x, og er derfor nyttig som termineringsbetingelse. Newtondekrementet kan også udtrykkes som Γ( x) = ( x T ntd (2) f( x) x nt ) 1/2. (4.41) Newton-dekrementet dukker op i forbindelse med backtracking linjeafsøgning, idet f( x) T x nt = Γ( x) 2. (4.42) Dette er konstanten, som bruges i backtracking linjeafsøgningen, og den kan ses som den retningsafledede af f i x i retning af Newton-skridtet. Med indførelsen af Newton-dekrementet er Newton-metoden for funktioner af flere variable givet ved algoritme 4.3. Algoritme 4.3 Den generelle Newton-metode (Boyd og Vandenberghe [2009]) Givet et startpunkt x domf Gentag 1. Bestem nedstigningsretningen og Newton-dekrementet; ( ) x nt := [D (2) f( x)] 1 f( x) ; Γ( x) 2 := f( x) T D (2) f( x) 1 f( x). 2. Termineringsbetingelse. Stop hvis Γ 2 /2 ɛ. 3. Linjeafsøgning. Vælg en skridtlængde λ > 0 ved backtracking linjeafsøgning. 4. Opdater. x := x + λ x nt Konvergensanalyse I dette afsnit vil det vises, at Newton-metoden givet i algoritme 4.3 konvergerer. Først kommer forudsætningerne og antagelserne for analysen, hvorefter den overordnede idé gennemgås, inden detaljerne udarbejdes. Det huskes, at f er to gange kontinuert differentiabel, og at den er stærk konveks, hvilket ifølge definition betyder, at D (2) f( x) mi, hvor m > 0, og som vist medfører det, at der eksisterer et M > 0, således at D (2) f( x) MI. Det bemærkes, at ulighederne henholdsvis kan omskrives til [D (2) f( x)] 1 (1/m)I og [D (2) f( x)] 1 (1/M)I. Hvert trin i algoritmen sikrer, at f(x k+1 ) f(x k ), hvilket betyder, at x k S, hvor S er 29

38 underniveaumængden for startgættet x 0 givet ved S = {x domf f(x) f(x 0 )}. Det antages også, at Hesse-matricen er Lipschitz-kontinuert, så fra definition fås, at D (2) f( x) D (2) f( y) 2 L x y 2, (4.43) hvor det huskes, at L 0 er Lipschitz-konstanten. Ud fra denne ligning er den tredje ordens afledede af f begrænset af L, hvilket er analogt til konvergensanalysen af Newtonmetoden for en funktion af én variabel. Hvis L = 0, kan f beskrives ved en kvadratisk form. Hvis L er stor, vil en kvadratisk form være en dårlig approksimation af f, og det forventes derfor, at det er svært at finde et kritisk punkt. Senere i afsnittet vil en sammenhæng mellem antal iterationer og L udledes. Analysen anvender en backtracking linjeafsøgning, givet ved algoritme 4.2, hvor λ start = 1 og 0 < α < 0, 5. Bevisskitse Her gennemgås den overordnede idé i analysen. Det vil vises, at der eksisterer to tal η og γ, hvor 0 < η m 2 /L og γ > 0, således at følgende betingelser holder: Hvis f( x k ) 2 η, så er f( x k+1 ) f( x k ) γ. (4.44) Hvis f( x k ) 2 < η, så giver backtracking linjeafsøgning λ k = 1 for alle k og ( ) L L 2 2m 2 f( x k+1 ) 2 2m 2 f( x k ) 2. (4.45) I det følgende argumenteres for, at disse to betingelser medfører, at der findes en øvre grænse for antal iterationer af Newton-metoden i forhold til en specificeret toleranceværdi. Det kan vises, at hvis betingelsen i ulighed 4.45 holder for iteration k, så holder den også for alle fremtidige iterationer l, hvor l k. Bruges dette i ulighed 4.45, fås det, at ( ) L L 2 l k 2m 2 f( x l ) 2 2m 2 f( x k ) 2 < Huskes estimatet, ( ) 1 2 l k. (4.46) 2 f( x) f( c) 1 2 Γ( x)2 (4.47) og bruges nu ulighed 4.46 samt antagelsen om stærk konveksitet fås, at f( x l ) f( c) 1 2m f( x l ) 2 2 < 2m3 L 2 ( ) 1 2 l k+1. (4.48) 2 Dette viser, at Newton-metoden under betingelsen i ulighed 4.45 konvergerer ekstremt hurtigt, da venstresiden udtrykker afstanden til det kritiske punkt, og højresiden hurtigt går mod 0. 30

39 I Newton-metoden opstår altså to faser: Den første fase, hvor ulighed 4.44 er opfyldt, og den anden fase, hvor ulighed 4.45 er opfyldt. Generelt kaldes den første fase for den dæmpede fase, mens den anden kaldes den kvadratiske fase. I den dæmpede fase aftager f med mindst γ i hver iteration. Da funktionen i alt skal aftage med f( x) f( c), kan antallet af iterationer højst være f( x) f( c). γ (4.49) Hvis den bruger flere end det, skulle f( x) < f( c), hvilket er modstrid med, at f( x) er konveks, og at c er et minimum. I den kvadratiske fase skal antallet af iterationer sørge for, at højresiden i ulighed 4.48 er mindre end et vilkårligt ɛ > 0. Som en hjælpestørrelse indføres her ɛ 0 := 2m 3 /L 2. Antal iterationer i den kvadratiske fase betegnes s = l k, og vælges som det største heltal, hvor det gælder, at s log 2 (log 2 (ɛ 0 /ɛ)). For den næste iteration, s + 1, må det derfor gælde, at ( ( ɛ0 )) s + 1 > log 2 log 2 2 2s+1 > ɛ 0 ɛ ɛ ɛ 0 ( ) 1 2 s+1 < ɛ. (4.50) 2 Deraf ses det altså, at der fås en afvigelse, som er mindre end ɛ, hvis der bruges s + 1 = l k + 1 iterationer. For at få en idé om, hvor hurtigt det konvergerer, kan vælges s = 5. Indsættes dette i uligheden fås, at ɛ 5, ɛ 0. Bruges der altså blot seks iterationer i den kvadratiske fase, fås et resultat med enorm stor nøjagtighed. Med denne nøjagtighed er antal iterationer dermed opadtil begrænset af f( x) f( c) γ + 6. (4.51) Udtryk 4.51 tager betingelserne i ulighederne 4.44 og 4.45 for givet. Disse to uligheder bevises i de to følgende afsnit. Dæmpet fase Det bevises her, at uligheden 4.44 er opfyldt under antagelsen f( x) 2 η. For at se dette, udledes en nedre grænse for skridtlængden bestemt ved linjeafsøgningen. Stærk konveksitet medfører, at D (2) f( x) MI på underniveaumængden S, og derfor fås: f( x + λ x nt ) f( x) + λ f( x) T x nt + M x nt 2 2 λ 2 (4.52) 2 f( x) λγ( x) 2 + M 2m λ2 Γ( x) 2, (4.53) hvor ligning 4.42 og følgende er anvendt: Γ( x) 2 = x T ntd (2) f( x) x nt m x nt 2 2, (4.54) hvor uligheden kommer fra konveksitetsbetingelsen, D (2) f( x) mi. For en backtracking linjeafsøgning med 0 < α < 0, 5 opfylder skridtlængden ˆλ = m/m termineringsbetingelsen, da f( x + ˆλ x nt ) f( x) m 2M Γ( x)2 f( x) αˆλγ( x) 2. (4.55) 31

40 Denne ulighed sikrer, at enhver skridtlængde λ, der opfylder termineringsbetingelsen også må opfylde λ βm/m. Ifølge backtracking algoritmen giver dette, at f( x + λ x nt ) f( x) αλγ( x) 2 hvor det er anvendt, at αβ m M Γ( x)2 αβ m M 2 f( x) 2 2 αβη 2 m M 2, (4.56) Γ( x) 2 = f( x)[d (2) f( x)] 1 f( x) 1 M f( x) 2 2. (4.57) Derfor er uligheden 4.44 opfyldt for γ = αβη 2 m M 2. (4.58) Kvadratisk fase I dette afsnit bevises ulighed 4.45 under antagelsen, at f( x) 2 < η. Først vil det vises, at backtracking linjeafsøgningen altid vælger en skridtlængde λ = 1, hvis η 3(1 2α) m2 L. (4.59) Bruges nu antagelsen fra ligning 4.43 om, at Hesse-matricen er Lipschitz-kontinuert, og sættes x = x + λ x nt og y = x, fås for λ 0, at D (2) f( x + λ x nt ) D (2) f( x) 2 λl x nt 2. (4.60) Ganges nu med x T nt og x nt på begge sider, og udnyttes det, at venstresiden da bliver en skalar, fås at x T nt(d (2) f( x + λ x nt ) D (2) f( x)) x nt λl x nt 3 2. (4.61) Indføres det, at f(λ) := f( x + λ x nt ), bliver den andenafledede ved brug af kædereglen f (λ) = x T ntd (2) f( x + λ x nt ) x nt. Indsættes dette udtryk i ulighed 4.61, fås det, at f (λ) f (0) λl x nt 3 2. (4.62) Denne ulighed bruges til at finde en øvre grænse for f(λ). Først omskrives ulighed 4.62 til f (λ) f (0) + λl x nt 3 2. (4.63) Bruges her ligning 4.41, ses det, at Γ( x) 2 = f (0), og indsættes dette samt ligning 4.54, ses det, at f (λ) Γ( x) 2 + λ L m 3/2 Γ( x)3. (4.64) Denne ulighed integreres med hensyn til λ, og integrationskonstanten tilpasses begyndelsesbetingelsen: f (λ) f (0) + λγ( x) 2 + λ 2 L 2m 3/2 Γ( x)3. (4.65) 32

41 Bruges nu ligning 4.42, ses det, at f (0) = Γ( x) 2. Dette indsættes, og integreres igen, kan følgende skrives: f(λ) f(0) λγ( x) 2 + λ Γ( x)2 + λ 3 L 6m 3/2 Γ( x)3. (4.66) Indsættes λ = λ start = 1 i uligheden, fås f(1) = f( x + x nt ) f( x) 1 2 Γ( x)2 + L 6m 3/2 Γ( x)3. (4.67) Bruges nu antagelsen om, at funktionen f er stærk konveks, og at f( x) 2 < η 3(1 2α)m 2 /L, fås ved brug af ligning 4.39, at ( ) 1 1/2 Γ( x) m f( x) 2 2 3(1 2α) m3/2 L. (4.68) Dette bruges nu i ulighed 4.67: f( x + x nt ) f( x) Γ( x) 2 ( 1 2 LΓ( x) 6m 3/2 f( x) αγ( x) 2 ) = f( x) + α f( x) T x nt, (4.69) hvor det i anden omskrivning er udnyttet, at α fra ulighed 4.68 skal opfylde, at α 1 2 LΓ( x), og i sidste omskrivning er ligning 4.42 benyttet. Sammenlignes dette udtryk 6m 3/2 med algoritme 4.2, ses, at skridtlængden opfylder termineringsbetingelsen, hvilket gør, at der holdes en konstant skridtlængde λ = 1. Det er nu muligt at bevise ulighed Det udnyttes først, at Newton-skridtet kan skrives x nt = [D (2) f( x)] 1 f( x), og derfor fås, at f( x + x nt ) 2 = f( x + x nt ) f( x) D (2) f( x) x nt 2. (4.70) Derefter udregnes følgende integral kaldet w: w = 1 0 (D (2) f( x + λ x nt ) D (2) f( x)) x nt dλ 1 1 = x nt D (2) f( x + λ x nt ) dλ x nt D (2) f( x) dλ 0 ] 1 = x nt [ x nt f( x + λ xnt ) x nt 2 x nt [D (2) f( x)λ = f( x + x nt ) f( x) D (2) f( x) x nt. (4.71) Det ses da, at normen af w er lig med højresiden af ligning Bruges nu Lipschitzbetingelsen fra ulighed 4.60, fås, at 1 (D (2) f( x + λ x nt ) D (2) f( x)) x nt dλ L 2 2 x nt 2 2. (4.72) 0 Indsættes dette i ligning 4.70, fås det, at f( x + x nt ) 2 L 2 x nt ] 1 = L 2 [D(2) f( x)] 1 f( x) 2 2 L 2m 2 f( x) 2 2, (4.73) 33

42 som svarer til uligheden i 4.45, som ønsket, idet x = x k og x + x nt = x k+1. Opsummeret gælder ulighed 4.45, hvis f( x k ) 2 < η = min{1, 3(1 2α)} m2 L. (4.74) Til sidst specificeres den øvre grænse for antal iterationer givet i ligning Dette gøres ved at indsætte udtrykket for η samt ligning 4.58 i ligning Dermed fås, at antal iterationer er opadtil begrænset af M 2 L 2 (f( x 0 ) f( c)) αβm 5 min{1, 9(1 2α) (4.75) } Som tidligere nævnt er Lipschitz-konstanten et udtryk for, hvor dårligt f kan approksimeres ved en kvadratisk form. Det ses her, at det maksimale antal iterationer afhænger af L 2. Så jo større L er, jo flere iterationer kan være nødvendige. Det ses også, at det maksimale antal iterationer i den dæmpede fase er ligefrem proportional med afstanden mellem startgættet og det kritiske punkt. 4.4 Gradientmetoden I dette afsnit udledes gradientmetoden for en funktion af flere variabler ud fra et førsteordens Taylor-polynomium af funktionen. Dernæst bevises det, at metoden konvergerer, når man anvender eksakt og backtracking linjeafsøgning til at finde skridtlængden Motivation af gradientmetoden I gradientmetoden søges efter et kritisk punkt for en funktion f ved altid at gå en given skridtlængde i den retning, hvor funktionsværdien ændrer sig mest. Vi ser på konvekse funktioner, og i dette afsnit vises, at netop i den retning fra punktet x 0 hvor funktionsværdien aftager mest er f( x 0 ) (Hauser [2012]). Givet et punkt x 0 ønskes det altså at bestemme den retning givet ved enhedsvektoren h, som man skal gå i for at minimere f( x 0 + h). En førsteordens Taylor-approksimation for f( x 0 + h) omkring punktet x 0 opstilles: ˆf( x 0 + h) = f( x 0 ) + f( x 0 ) T h. (4.76) Af ligningen ses det, at ˆf( x 0 + h) minimeres, når h = f( x 0 ) f( x 0 ) 2, f( x 0 ) 2 0. (4.77) Heraf ses det, at f( x 0 ) er den retning, hvormed Taylor-approksimationen for en given funktion f hurtigst aftager. Ledes der efter et minimum, vil denne søgeretning derfor være et logisk valg, hvilket er begrundelsen for at gradientmetoden er givet ved algoritmen: 34

43 Algoritme 4.4 Den generelle gradientmetode (Boyd og Vandenberghe [2009]) Givet et startpunkt x domf Gentag 1. Bestem en nedstigningsretning x := f( x). 2. Linjeafsøgning. Vælg en skridtlængde λ > 0, ved eksakt eller backtracking linjesøgning. 3. Opdater. x := x + λ x. indtil termineringsbetingelsen, f( x) 2 < ɛ, er opfyldt. Bemærk, at termineringsbetingelsen er anderledes end i algoritme 4.3, idet tolerenceværdien, ɛ, er knyttet til normen af gradienten for f og ikke direkte til forskellen på funktionsværdierne af det fundne punkt og det kritiske punkt Konvergensanalyse I dette afsnit bevises, at gradientmetoden konvergerer mod et kritisk punkt, hvis der anvendes eksakt linjeafsøgning eller ineksakt linjeafsøgning, der opfylder Wolfebetingelserne. Konvergens ved eksakt linjeafsøgning Sætning (Freund [2004b], sætning 14). Lad f : V R, hvor V R n, være en kontinuert differentiabel funktion på en begrænset underniveaumængde S = { x R n : f( x) f( x 0 )}, hvor x 0 R n er et givet startpunkt. Lad følgen { x k } være defineret ved x k+1 = x k λ k f( xk ), k N, (4.78) hvor skridtlængden λ k er bestemt ved en eksakt linjeafsøgning. Så vil alle grænsepunkter, x, af { x k } opfylde, at f( x) = 0. Bevis. Eftersom f( x k+1 ) f( x k ) f( x 0 ), gælder det, at { x k } S. Da S er begrænset, fås det fra Bolzano-Weierstrass sætning (Wade [2010], sætning 9.5), at der findes en delfølge { x k }, der konvergerer mod en værdi x. Antag, at lim x k = x. Ved modstrid vil k det nu vises, at x opfylder f( x) = 0. Antag derfor, at f( x) 0. Dette medfører, at der eksisterer et λ > 0, så δ := f( x) f( x + λ d) > 0, hvor d = f( x). Det følger, at ( x + λ d) Int(S), da dette er det næste punkt, der fremkommer i algoritmen. Lad { d k } være følgen genereret af retningerne i ligning 4.78, hvilket vil sige, at d k := f( x k ). Da f er kontinuert differentiabel, må lim d k = d. Eftersom ( x + λ d) Int(S), k og ( x k + λ d k ) ( x + λ d), fås ud fra kontinuitet samt definitionen af konvergens, at der for tilstrækkeligt store k eksisterer et ɛ > 0 således at, f( x k + λ d k ) f( x + λ d) < ɛ. (4.79) 35

44 Sættes ɛ δ/2 og omskrives der, fås følgende ulighed: f( x k + λ d k ) f( x + λ d) + δ 2 = f( x) δ + δ 2 = f( x) δ 2. (4.80) Desuden fås det, at f( x) f( x k + λ k dk ) f( x k + λ d k ) f( x) δ 2, (4.81) hvor midterste ulighed skyldes, at skridtlængden vælges ved eksakt linjeafsøgning, og sidste ulighed skyldes ligning Dette er en modstrid, da δ > 0, og det gælder derfor, at f( x) = 0. Det ses derfor, at algoritmen konvergerer mod x, som er et kritisk punkt for f. Konvergens ved backtracking linjeafsøgning Sætning (Shevade [2012]). Lad f : V R, hvor V R n, være nedadtil begrænset og kontinuert differentiabel. Lad { x k } være en følge genereret af gradientmetoden, hvor skridtlængden er fundet ved backtracking linjeafsøgning. Antag derudover at {f( x k )} er de tilhørende funktionsværdier, som dermed skal opfylde, at f( x k+1 ) f( x k ) for alle k 0. Så gælder, at følgen { x k } konvergerer mod en værdi c for et endeligt k, altså at f( x k ) 0 for et endeligt k. (4.82) Bevis. For hvert k defineres φ k (λ k ) således: φ k (λ k ) := f( x k λ k f( xk )). (4.83) Idet skridtlængden λ k > 0 findes ud fra backtracking algoritmen 4.2, gælder det, at f( x k+1 ) f( x k ) αλ k f( x k ) 2 2 for α (0, 1). (4.84) Da {f( x k )} både er nedadtil begrænset og aftagende, må det gælde, at følgen konvergerer imod en værdi f( c) >, at f( x k+1 ) f( x k ), og at f( x 0 ) f( x k ) < for alle k 0. Armijo-betingelsen i ligning 4.84 giver ved induktion, at f( x k+1 ) kan beskrives ved hjælp af f( x 0 ): f( x k+1 ) f( x k ) αλ k f( x k ) 2 2 f( x 0 ) α k λ j f( x j ) 2 2. (4.85) Derfor må det gælde, at > f( x 0 ) f( x k+1 ) α k λ j f( x j ) 2 2. For k konkluderes det, at λ j f( x j ) 2 2 <. (4.86) j=0 Heraf ses, at λ j f( x j ) for tilstrækkeligt store j <. Da λ j ud fra backtracking linjeafsøgningen altid er forskellig fra 0, konkluderes det, at f( x j ) for et endeligt j. Dette er kun opfyldt, når f( x j ) 0 for et endeligt j. 36 j=0 j=0

45 Det ses derfor, at algoritmen med backtracking linjeafsøgning konvergerer mod c, som er et kritisk punkt for f. 4.5 Den generelle steepest descent metode Med udgangspunkt i (Boyd og Vandenberghe [2009]) vil det i dette afsnit vises, at Newtonmetoden og gradientmetoden grundlæggende er ens, der anvendes blot forskellige normer til bestemmelse af retningen for den stejleste nedstigning. Begrebet norm er præsenteret i appendiks A. Den minimerende følge { x k } for de to iterative metoder er ifølge ligning 4.4 generelt givet ved x k+1 = x k + λ k x k, k N, (4.87) hvor forskellen ligger i skridtlængden λ k, og søgeretningen x k. Analysen af den generelle steepest descent metode tager udgangspunkt i førsteordens Taylor-approksimationen af f( x + h) omkring x, der ifølge ligning 3.20 er givet ved ˆf( x + h) = f( x) + f( x) T h. (4.88) Det ses, at f( x) T h er den retningsafledede af f i x i retning af h. Det giver den approksimerede ændring af f for et lille skridt h. Hvis den retningsafledede er negativ, er h en nedstigningsretning. Idet det ønskes at bestemme et minimum for f, bestemmes h, så f( x) T h bliver så lille som mulig. Da h antages at være en nedstigningsretning, er f( x) T h < 0, og den retningsafledede kan gøres så lille, som det ønskes ved at gøre h stor. Idet det ikke giver mening at lade h blive uendeligt stor, er det nødvendigt at begrænse størrelsen af h, hvilket gøres ved at normalisere h. Definition (Boyd og Vandenberghe [2009], side 475). Lad være en vilkårlig norm på R n. Da er den normaliserede stejleste nedstigningsretning, med hensyn til normen, givet ved x nsd = min h { f( x) T h : h = 1}. x nsd er det skridt med enhedsnorm, der giver det største fald af ˆf( x + h). Geometrisk kan det tolkes som den retning i enhedssfæren af, der giver den største projektion af h på f( x). Dette er skitseret i figur

46 Figur 4.5. Normaliserede stejleste nedstigningsretning for kvadratisk norm. Ellipsen viser enhedssfæren af normen omkring punktet x. Den normaliserede stejleste nedstigningsretning x nsd fra x går mest muligt i retning af f( x), mens den bliver på ellipsen. (Boyd og Vandenberghe [2009]) Definition (Boyd og Vandenberghe [2009], side 476). Lad være den duale norm til normen, hvormed den normaliserede stejleste nedstigningsretning er defineret. Da er den unormaliserede stejleste nedstigningsretning defineret ved x sd = f( x) x nsd. Steepest descent metoden anvender den stejleste nedstigningsretning som søgeretning, og x k fra ligning 4.87 er givet ved x sd, der opdateres ved hver iteration. Det vil i det følgende vises, hvorledes valget af norm har indflydelse på søgeretningen Euklidisk norm Anvendes den euklidiske norm til at definere x nsd, bliver x nsd = min h { f( x) T h : h 2 = 1}, (4.89) et optimeringsproblem, hvor g( h) = f( x) T h skal minimeres under sidebetingelsen k( h) = h T h = 1. Dette gøres ved hjælp af Lagrange-multiplikatorer (Wade [2010], sætning 11.63). Det fås, at g( h) = f( x) (4.90) k( h) = 2 h. (4.91) Da g( h) og k( h) skal være parallelle, findes en konstant ρ R, så ρ f( x) = h. (4.92) 38

47 Fra sidebetingelsen skal gælde, at ρ f( x) T ρ f( x) = ρ = ± f( x) T f( x) = ± f( x). (4.93) 2 Da der søges efter en nedstigningsretning, fås, at den normaliserede stejleste nedstigningsretning er givet ved, f( x) h = xnsd = f( x). (4.94) 2 Idet 2 = 2 bliver x sd = f( x) 2 x nsd = f( x), (4.95) Det bemærkes, at dette er søgeretningen for gradientmetoden, altså er gradientmetoden præcis den generelle steepest descent metode med euklidisk norm Kvadratisk norm Anvendes i stedet den P -kvadratiske norm, som defineret i bilag A, i definitionen af x nsd, kan søgeretningen findes ved at løse optimeringsproblemet, hvor g( h) = f( x) T h skal minimeres under sidebetingelsen k( h) = h T P h = 1, hvor P er en symmetrisk positiv definit matrix. Dette gøres igen ved hjælp af Lagrange-multiplikatorer. g( h) = f( x) T (4.96) k( h) = 2P h. (4.97) Igen skal g( h) og k( h) være parallelle for at minimere h, og der findes en konstant ρ R, så ρ f( x) = P h h = ρp 1 f( x). (4.98) Konstanten kan nu bestemmes udfra sidebetingelsen: h T P h = ρ 2 f( x) T P 1 P P 1 f( x) = 1 ρ 2 = 1 f( x) T P 1 f( x) ρ = ±( f( x) T P 1 f( x)) 1/2. (4.99) Med samme argument som tidligere er den normaliserede stejleste nedstigningsretning givet ved h = xnsd = ( f( x) T P 1 f( x)) 1/2 P 1 f( x). (4.100) Idet den duale norm af en kvadratisk norm er givet ved u P = ( u T P 1 u) 1/2, bliver den unormaliserede stejleste nedstigningsretning i den kvadratiske norm x sd = f( x) P x nsd (4.101) = f( x) T P 1 f( x)) 1/2 ( f( x) T P 1 f( x)) 1/2 P 1 f( x) (4.102) = P 1 f( x). (4.103) 39

48 Det observeres, at vælges den symmetriske positivt definitte matrix P til at være identitetsmatricen fås søgeretningen til at være f( x) som for gradientmetoden. Vælges i stedet Hesse-matricen i punktet x, fås præcis søgeretningen som angivet i Newtonmetoden, og den er altså steepest descent metoden i Hesse-normen. 40

49 Eksempler 5 I dette kapitel vil det illustreres, hvordan Newton- og gradientmetoden virker i praksis. Først ses der på en simpel funktion på kvadratisk form af to variabler, hvor principperne i algoritmerne vises udførligt. Algoritmerne er skrevet i Matlab, og kildekoden kan ses i appendiks C. Anden del af kapitlet illustrerer og sammenligner metoderne anvendt på to mere komplicerede funktioner af to variabler. Til sidst ses på en konkret anvendelse, hvor Newton-metoden bruges til at lave lineær regression på et datasæt. 5.1 Optimering af en funktion på kvadratisk form Der vil i dette afsnit laves et regneeksempel, hvori det vises, hvordan metoderne fungerer i praksis. Der vælges derfor en simpel funktion af to variabler, som ønskes optimeret. Dette gøres både ved brug af Newton-metoden med backtracking linjeafsøgning og gradientmetoden anvendt med eksakt linjeafsøgning. Den konvekse funktionen, der ønskes optimeret, er f(x, y) = x 2 + y 2, som er plottet i figur 5.1, og startgættet er x 0 = (2, 3). I dette sættes toleranceværdien for begge algoritmer til ɛ = Figur 5.1. Funktionen f(x, y) = x 2 + y 2. 41

50 5.1.1 Newton-metoden med backtracking linjeafsøgning Her anvendes algoritme 4.3, hvor konstanterne i backtracking linjeafsøgningen i algoritme 4.2 er sat til α = 0, 3 og β = 0, 6. Først findes gradienten og Hesse-matricen ud fra sætning og definition 3.2.3, og de evalueres i x 0 for at kunne bestemme søgeretningen. f(x, y) = [ 2x 2y ] f(2, 3) = [ 4 6 ] (5.1) [ ] [ ] D (2) 2 0 f(x, y) = D (2) 2 0 f(2, 3) =. (5.2) Søgeretningen er derfor: x nt = [D (2) f(2, 3)] 1 f(2, 3) = [ Derefter evalueres Newton-dekrementet i x 0 : ] [ ] 4 6 [ ] 2 =. (5.3) 3 Γ(2, 3) 2 = f(2, 3) T [D (2) f(2, 3)] 1 f(2, 3) [ ] [ ] [ ] 1 = = 26. (5.4) Dermed er termineringsbetingelsen Γ 2 /2 < ɛ ikke opfyldt. Derfor udføres næste trin i algoritme 4.3, og der startes med en skridtlængde på λ = 1. Løkkebetingelsen evalueres: f( x + λ x) > f( x) + αλ f( x) T x f( x 0 [D (2) f( x 0 )] 1 f( x0 )) > f( x 0 ) 0, 3Γ( x 0 ) 2 f((2, 3) [D (2) f(2, 3)] 1 f(2, 3)) > f(2, 3) 0, 3Γ(2, 3) 2 f(0, 0) > f(2, 3) 0, 3Γ(2, 3) 2 0 > 13 0, 3 26 = 5, 2 (5.5) Det er falsk, hvorfor værdien for λ ikke ændres, og algoritmen returnerer λ = 1. Det næste punkt fremkommet i algoritmen er altså: [ ] x 1 = x 0 [D (2) f( x 0 )] 1 f( x0 0 ) =. (5.6) 0 Algoritmen køres igen, og Newton-dekrementet i evalueres i x 1 : [ ] [ ] [ ] Γ(0, 0) 2 1 = = Dermed er termineringsbetingelsen opfyldt, og punktet (0, 0) er det fundne kritiske punkt. Det bemærkes her, at algoritmen kun bruger én iteration til at finde det kritiske punkt. Dette skyldes, at funktionen f er en kvadratisk form, og i motivationen af Newton-metoden huskes det, at man i hver iteration optimerer en andenordens Taylor-approksimation af funktionen, og for en kvadratisk form er Taylor-approksimationen af anden orden netop lig med funktionen selv. 42

51 5.1.2 Gradientmetoden med eksakt linjeafsøgning Den samme funktion med samme startgæt og toleranceværdi optimeres nu med gradientmetoden, hvor der anvendes eksakt linjeafsøgning. Algoritme 4.4 anvendes, og først findes søgeretningen: [ ] x = f( x 4 0 ) =. (5.7) 6 Andet trin i algoritmen er at foretage en eksakt linjesøgning, som i ligning 4.6. Den endimensionale funktion, som skal minimeres med hensyn til λ, er da ( [ ]) ([ ]) 4 2 4λ f(λ) := f x 0 + λ = f = 52λ 2 52λ (5.8) λ Denne funktion minimeres da ved brug af den af sætning 3.3.2: f (λ) = 104λ 52 = 0 λ = 1 2. (5.9) Funktionen f(λ) har altså et kritiske punkt i λ = 1/2. Det ses også, at f (λ) = 104 > 0, og dermed er λ = 1/2 et lokalt minimum. Tredje trin i algoritmen er at opdatere x, så [ ] [ ] [ ] 2 x 1 = x 0 + λ x 0 = =. (5.10) Termineringsbetingelsen er da opfyldt, idet f( x 1 ) 2 = 0 < ɛ. (5.11) Det ses da, at denne algoritme også konvergerer i ét skridt. Dette skyldes, at niveaukurverne for funktionen, der ses afbildet i figur 5.2 er cirkulære. Da gradienten står vinkelret på niveaukurverne for f, er den valgte nedstigningsretning også vinkelret på niveaukurverne. Findes funktionen f(λ) ud fra denne retning, vil den minimeres i (0, 0), uanset hvilket punkt der startes fra. Dermed er minimum fundet i én iteration, når der anvendes eksakt linjeafsøgning. 43

52 3 2 1 y 0 minimum x Figur 5.2. Niveaukurver for funktionen f(x, y) = x 2 + y 2. I det indtegnede punkt er f( x) vinkelret på niveaukurven. Den sorte linje angiver f(λ), som går gennem minimum, hvilket viser, at gradientmetoden med eksakt linjeafsøgning når minimum i første iteration. 5.2 Optimering af konveks funktion i Matlab Som nævnt er algoritmerne skrevet i Matlab, og i dette afsnit anvendes disse til at finde minimum af funktionen f(x, y) = 100x 4 + y 4 + (xy) 4. (5.12) Med de analytiske metoder i kapitel 3 beregnes hurtigt, at det kritiske punkt har koordinaterne (0, 0), og af plottet af funktionen i figur 5.3 ses, at punktet angiver funktionens minimum. Figur 5.3. Funktionen f(x, y) = 100x 4 + y 4 + (xy) 4. 44

53 Algoritmerne skrevet i Matlab, svarer til dem, vi i projektet har bevist konvergerer. Altså arbejdes der med Newton-metoden, hvor skridtlængden findes ved backtracking linjeafsøgning, samt gradientmetoden, hvor skridtlængden findes ved henholdsvis eksakt og backtracking linjeafsøgning. Hver algoritme er kørt for funktionen i ligning 5.12, startgættet er i hvert tilfælde sat til x 0 = [4, 4] T, og backtracking linjeafsøgningerne er α = 10 4 og β = 0, 6. Toleranceværdier er valgt, så der nås en nøjagtighed på i afstanden mellem funktionsværdien af det fundne punkt og funktionens minimum, men den øvre begrænsning på antal iterationer er 101. På figurerne 5.4, 5.5 og 5.6 er iterationspunkterne plottet sammen med niveaukurverne for funktionen. På figur 5.7 er afstanden mellem funktionsværdien af punktet, fundet i algoritmerne, og funktionens minimum. 4 x 3 x 0 4 x 0 3 x 4 x x 6 x 5 x 1 2 y 1 0 x 7 x 8 y 1 0 x 1 x2 x x x Figur 5.4. Newton-metoden: Iterationerne plottet med niveaukurverne for funktionen. Figur 5.5. Gradientmetoden med eksakt linjeafsøgning: Iterationerne plottet med niveaukurverne for funktionen. 4 3 x Newton metoden med backtracking linjeafsøgning Gradientmetoden med backtracking linjeafsøgning Gradientmetoden med eksakt linjeafsøgning y 0 x x x f(x) f(c) x Antal iterationer Figur 5.6. Gradientmetoden med backtracking linjeafsøgning: Iterationerne plottet med niveaukurverne for funktionen. Figur 5.7. Afstanden mellem det fundne punkt og det optimale punkt ved hver iteraion for hver algorimte. 45

54 Af figur 5.7 ses, at gradientmetoden med eksakt linjeafsøgning bruger væsentlig færre iterationer på at nå en nøjagtighed på end med backtracking linjeafsøgning. Det skal dog huskes, at linjeafsøgningen i hver iteration skal minimere en funktion, enten analytisk, eller i praksis ved en numerisk metode, og derfor er gradientmetoden med eksakt linjeafsøgning ikke nødvendigvis den mindst beregningsomfattende. På figur 5.7 ses desuden, at en nøjagtighed på ca opnås efter færre iterationer i metoden med backtracking linjeafsøgning end ved eksakt linjeafsøgning. Så var denne nøjagtighed tilstrækkelig, ville backtracking bruge færre iterationer. Sammenlignes Newton-metoden med gradientmetoden med eksakt linjeafsøgning, kan det i figur 5.7 aflæses, at Newton-metoden bruger 27 iterationer på at opnå en nøjagtighed på mindst 10 13, mens gradientmetoden bruger 17 iterationer på at opnå mindst samme nøjagtighed. Samme figur viser tydeligt, at konvergensraten for gradientmetoden, hvor der anvendes backtracking linjeafsøgning, efter ca. 10 iterationer aftager meget, og nærmest går i stå sammenlignet Newton-metoden. Selv efter 101 iterationer er nøjagtigheden langt fra den samme som den opnået med Newton-metoden. Det ses, at den meget lave konvergensrate opstår samtidig med, at punkterne fremkommet i algoritmen når til det sted, hvor funktionen bliver meget flad, og hvor gradienterne fundet i algoritmen dermed bliver meget små. Ses der på Newton-metoden i forhold til gradientmetoderne i figurerne 5.4, 5.5, og 5.6 observeres det, at Newton-metoden bruger flere skridt på at komme i nærheden af minimum, hvor gradientmetoderne springer mere i første iteration. Men som figur 5.7 til gengæld viste, fortsætter Newton-metoden med at konvergere hurtigt selv i det meget flade område af funktionen i modsætning til gradientmetoden med backtracking linjeafsøgning. Dette stemmer godt overens med, at det i konvergensbeviset for metoden blev set, at den konvergerer meget hurtigt i den kvadratiske fase, når størrelsen af gradienten er lille. Generelt er en ulempe ved Newton-metoden, som ikke ses i dette eksempel, at funktionens Hesse-matrix skal inverteres, eller at det tilsvarende ligningssystem skal løses. Dette er dels en beregningsmæssig tung proces, især for funktioner af mange variable, og dels er det ikke altid muligt, hvilket sætter nogle begrænsninger på, hvilke funktioner metoden kan anvendes på. 5.3 Optimering af Rosenbrock-funktionen i Matlab I kapitel 4 blev det antaget, at vi ser på konvekse funktioner, hvilket blev anvendt i beviser og teori, da det sikrer, at funktionen, man optimerer har ét kritisk punkt, samt at dette punkt med sikkerhed er funktionens minimum. I virkelige problemstillinger, er funktioner ikke altid konvekse, og en funktion, der ofte anvendes til at teste optimeringsalgoritmer er Rosenbrock-funktionen f(x, y) = (1 x) (y x 2 ) 2. (5.13) Funktionen kan ses i figur 5.8 og antager sin minimumsværdi i punktet (1, 1). I dette afsnit vil vi forsøge at finde det kritiske punkt med Newton-metoden og gradientmetoden, der her begge anvender backtracking linjeafsøgning. Et typisk anvendt startgæt, som også anvendes som startgættet i vores algoritmer, er x 0 = ( 1, 2; 1) (Moré et al. [1981]). 46

55 Newton metoden med backtracking linjeafsøgning Gradientmetoden med backtracking linjeafsøgning 10 5 f(x) f(c) Antal iterationer Figur 5.8. Rosenbrock-funktionen f(x, y) = (1 x) (y x 2 ) 2. Figur 5.9. Afstanden mellem det fundne punkt og det optimale punkt ved hver iteration for begge algoritmer x x 0 1 x x x y 0.5 x 2 x3 x 4 0 y x x Figur Iterationspunkterne fundet med Newton-metoden indsat i plot med niveaukurverne for Rosenbrock-funktionen. Figur Iterationspunkterne fundet med backtracking gradientmetoden indsat i plot med niveaukurverne for Rosenbrock-funktionen. På figurerne 5.10 og 5.11 er punkterne fundet ved hver iteration plottet sammen med niveaukurverne for Rosenbrock-funktionen. Her ses, at punkterne med Newton-metoden hver gang kommer lidt nærmere det kritiske punkt. Samtidig ses, at algoritmen for gradientmetoden starter med punkter lige omkring startgættet hvorefter den ca. rammer punktet (1, 2; 1, 5), hvor den ikke kommer videre. Disse tendenser afspejles ligeledes på figur 5.9, hvor fejlen efter et givet antal iterationer er plottet. Newton-metoden er langsom i starten, men konvergerer hurtigt, så snart den når den kvadratiske fase, mens gradientmetoden med den brugte backtracking linjeafsøgning ikke umiddelbart konvergerer mod det kritiske punkt. Det ses hermed, at valget af algoritme kan have stor betydning for, hvor hurtigt og præcist optimeringsproblemet løses. 47

Vis mere