G r u p p e G

M a t e m a t i s k o p t i m e r i n g ( E k s t r e m a, t e o r i o g p r a k s i s ) P 3 p r o j e k t G r u p p e G 3-1 1 7 V e j l e d e r : N i k o l a j H e s s - N i e l s e n 1 4. d e c e m b e r 2 0 1 2 I n s t i t u t f o r M a t e m a t i s k e Fa g A a l b o r g U n i v e r s i t e t

Department of Mathematical Sciences Fredrik Bajers Vej 7G, 9220 Aalborg Ø Phone +45 99 40 88 01 Fax +45 98 15 81 29 http://math.aau.dk Titel: Matematisk optimering Tema: Ekstrema, teori og praksis Synopsis: Projektperiode: P3, efterårssemesteret 2012 Projektgruppe: G3-117 Deltagere: Camilla Lund Ypkendanz Christian Gyldenholm Emil Aaqiust Frederiksen Nete Bjerregaard Ngoc Minh Luan Nguyen Troels Sønderby Christensen Hovedvejleder: Nikolaj Hess-Nielsen Oplagstal: 9 Denne rapport omhandler bestemmelse af ekstrema for lineære funktioner, som er underlagt bibetingelser, og non-lineære funktioner med og uden bibetingelser. I forbindelse med dette præsenteres relevante metoder og den nødvendige teori, som ligger til grund herfor; herunder teorien bag Hessematricen, Taylors formel og konvekse funktioner. De metoder, der præsenteres, er simplex-metoden, Newtonog Newton-Raphson metoden, Lagranges multiplikatormetode og Kuhn-Tucker betingelserne. Simplex-metoden og Lagranges multiplikatormetode anvendes på to fiktive optimeringsproblemer for at illustrere anvendelsen af disse; hhv. et lineært og et non-lineært optimeringsproblem. Sidetal: 108 Afsluttet den: 14/12/12 Rapportens indhold er frit tilgængeligt, men offentliggørelse (med kildeangivelse) må kun ske efter aftale med forfatterne. 1

FORORD Rapporten er udarbejdet af projektgruppen G3-117 bestående af matematik-økonomi studerende på tredje semester i perioden fra 1-9-2012 til 14-12-2012 på Institut for Matematiske Fag. Det overordnede emne for semesteret er Ekstrema, teori og praksis. Delmålene med rapporten er at få en forståelse indenfor matematisk optimering, samt udvikle og styrke gruppens evne til mundtligt og skriftligt at kunne give en korrekt og præcis matematisk fremstilling. Rapporten henvender sig til personer med et fagligt niveau svarende til et bestået andet semester på en matematisk videregående uddannelse. Hvert kapitel er opbygget på følgende vis: Indledning til kapitlet. Teori med konkrete eksempler der er med til at belyse problemstillingen. Afrunding af kapitlet og en overgang til næste kapitel. Bemærk at bilag benyttes til at angive relevant teori, som ligger til grund for visse sætninger i selve rapporten. Rapporten er udarbejdet med tekstbehandlingssystemet L A TEX. Kilder bliver refereret vha. L A TEX s interne kildehenvisningssystem BibTEX. I rapporten anvendes kildehenvisninger med [ ], hvor angiver tallet, som kilden har i litteraturlisten. Gruppen vil gerne takke vejleder Nikolaj Hess-Nielsen for sin assistance. 3

Indhold INDHOLD Indhold 4 1 Indledning 7 2 Eksistens af ekstrema 9 2.1 Bolzano-Weierstrass.................................. 10 2.2 Den naturlige topologi for et metrisk rum...................... 12 2.2.1 Indre mængde, ydre mængde og randen................... 15 2.3 Kompakte og følgekompakte mængder........................ 16 2.4 Kontinuerte funktioner defineret på et metrisk rum................. 18 3 Lineær optimering 21 3.1 Lineære programmeringsproblemer.......................... 22 3.2 Optimal løsning..................................... 24 3.3 Den geometriske metode................................ 26 3.4 Simplex-metoden.................................... 28 3.4.1 Slack-variable.................................. 28 3.4.2 Dualitet..................................... 32 3.4.3 Økonomisk fortolkning af slack-variablene.................. 36 4 Non-lineær optimering 39 4.1 Differentiabilitet på R n................................ 40 4.1.1 Taylors formel i R............................... 42 4.2 Ekstrema for funktioner i to eller flere dimensioner................. 44 4.2.1 Optimering i to dimensioner.......................... 44 4.2.2 Optimering i højere dimensioner....................... 46 4.2.2.1 Hessematricen............................ 47 4.2.2.1.1 Sylvesters kriterium.................... 52 4.2.3 Specielle funktioner.............................. 55 4.2.3.1 Konveksitet.............................. 55 4

Indhold 4.2.3.1.1 Konvekse funktioner af én reel variabel......... 55 4.2.3.1.2 Konvekse differentiable funktioner af én reel variabel.. 59 4.2.3.1.3 Konvekse mængder i R n.................. 61 4.2.3.1.4 Konvekse funktioner af n reelle variable......... 62 4.2.3.2 Kvadratiske former......................... 64 4.2.4 Nulpunkts- og ekstremaapproksimation................... 65 4.2.4.1 Newton-Raphson........................... 65 4.2.4.2 Newton-metoden i én variabel................... 67 4.2.4.3 Newton-metoden i flere variable.................. 68 4.2.4.4 Problemer ved metoden....................... 69 4.3 Ekstrema for funktioner underlagt bibetingelser................... 70 4.3.1 Lagranges multiplikatormetode........................ 71 4.3.1.1 To variable med én bibetingelse.................. 71 4.3.1.2 Tre variable med to bibetingelser.................. 74 4.3.1.3 n variable med k bibetingelser................... 77 4.3.1.4 Økonomisk fortolkning af Lagranges multiplikatorer....... 79 4.3.2 Kuhn-Tucker.................................. 81 5 Anvendelse 85 5.1 Kostoptimering..................................... 86 5.2 Porteføljeoptimering ved Markowitz-modellen.................... 90 5.2.0.1 Optimering vha. Lagranges multiplikatormetode......... 91 6 Sammenfatning 95 A De reelle tal 97 B Lineær Algebra 99 B.1 Symmetriske matricer................................. 101 B.2 Basisskift........................................ 101 C Hjælpesætninger 103 Litteratur 107 5

Kapitel 1. Indledning kapitel 1 INDLEDNING Historisk set har der været forskellige tilgange til optimeringen af reelle funktioner. Lagrange og Fermat baserede deres tilgang på calculus-baserede formler, hvor Newton og Gauss anvendte en mere iterativ tilgang. En af de første gange udtrykket optimering blev anvendt, var i forbindelse med udarbejdelsen af teorien bag lineær programmering, der blev indført i 1939 af Leonid Kantorovich (3). Matematisk optimering er en vigtig del af mange virksomheders hverdag og bliver brugt i forskellige sammenhænge og til forskellige problemstillinger. Disse problemstillinger er oftest udformet således, at den pågældende virksomhed ønsker at maksimere eller minimere en funktion, der approksimerer en udvikling, under visse bibetingelser. Disse problemstillinger omhandler ofte optimering af økonomiske problemstillinger. Indenfor økonomisk optimering indgår som regel mange variable, der skal tages hensyn til, hvilket kan gøre problemstillingerne komplekse. Det er umuligt at opstille en model, der beskriver større økonomiske udviklinger helt præcist; der er dog ofte lavet nogle antagelser, som gør det muligt at opstille den økonomiske udvikling som en funktion. Det er interessant at se på, hvorledes denne approksimative udvikling opfører sig i en lille omegn af et optimum, da sådanne optima kan være af forskellig art. 7

Kapitel 2. Eksistens af ekstrema kapitel 2 EKSISTENS AF EKSTREMA Dette kapitel bygger på (22) kapitel 2 og (7). Kapitlet har til formål at opstille ekstremværdisætningen, som giver en eksistens af maksimum og minimum ved bestemte antagelser. Disse værdier ønskes fundet i optimeringsøjemed; eksistensen af disse er derfor helt centralt. Afsnit 2.1 introducerer begreberne følge, delfølge og konvergens af følger. Disse er alle nødvendige for at kunne opstille Bolzano-Weierstrass sætning, som bruges gentagne gange i dette kapitel. Afsnit 2.2 introducerer topologi i metriske rum. Åbne og lukkede mængder defineres for at kunne definere den indre mængde, den ydre mængde og randen. Den indre mængde og randen er centrale begreber i matematisk optimering. Afsnit 2.3 introducerer begreberne kompakthed og følgekompakthed i metriske rum, da disse er nødvendige for at kunne opstille ekstremværdisætningen. Heine-Borel sætningen gives, da dette resultat er centralt i rapportens videre forløb. Afsnit 2.4 introducerer kontinuitetsbegrebet for funktioner i metriske rum, da de funktioner, som denne rapport omhandler, alle er kontinuerte. Afslutningsvist præsenteres ekstremværdisætningen i metriske rum. 9

Kapitel 2. Eksistens af ekstrema 2.1 Bolzano-Weierstrass Dette afsnit har til formål at opstille Bolzano-Weierstrass sætning i det euklidiske rum. Normen i det euklidiske rum er givet ved n x = x j 2. Først introduceres begreberne følge, delfølge og begrænsethed i hhv. definition 2.1.1, definition 2.1.2 og definition 2.1.3. Definition 2.1.1. En følge er en funktion, hvis definitionsmængde er N. En følge f, hvis værdier er x k := f(k), betegnes som x 1, x 2, eller {x k } k N eller {x k }. Definition 2.1.2. En delfølge af en følge {x k } er en følge på formen {x kl }, hvor alle k l N og k 1 < k 2 < for alle k N. Definition 2.1.3. {x k } siges at være begrænset, hvis og kun hvis der eksisterer et M > 0 således, at {x k } M. j=1 Konvergens af følger er defineret i definition 2.1.4. Definition 2.1.4. En reel følge {x k } konvergerer mod et reelt tal a R n, hvis og kun hvis der til ethvert ε > 0 eksisterer et N N således, at k N medfører, at x k a < ε. Dette skrives også som x k a for k. Før Bolzano-Weierstrass sætning præsenteres, gives lemma 2.1.5, der omhandler følger i R. Lemma 2.1.5. Hvis {x k } er voksende og opadtil begrænset, eller hvis {x k } er aftagende og nedadtil begrænset, så konvergerer {x k } mod en endelig grænseværdi. Bevis. Antag at {x k } er en voksende og opadtil begrænset følge. Aksiom 10 givet i bilag A giver, at a := sup x k for k N eksisterer og er endeligt. Da a er den mindste øvre grænse, kan der vælges et N N således, at der for et givet ε > 0 gælder, at a ε < x N a. Da x k x N for k N, og da x k a for alle k N, må det nødvendigvis gælde, at a ε < x k a, for alle k N. 10

2.1. Bolzano-Weierstrass Dette er ensbetydende med, at x k a for k. Antag at {x k } er en aftagende og nedadtil begrænset følge. Jf. sætning A.0.2, givet i bilag A, gælder det, at b := inf{x k : k N} eksisterer og er endeligt. Da b er den største nedre grænse, kan der vælges et N N således, at der for et givet ε > 0 gælder, at b + ε > x N b. Da x k x N for k N og da x k b for alle k N må det nødvendigvis gælde, at b + ε > x k b, for alle k N. Dette er ensbetydende med, at x k b for k. Denne sætning gælder også for reelle følger i R n, jf. sætning 9.2 side 303 i (22). Bolzano-Weierstrass sætningen er givet i sætning 2.1.6 Sætning 2.1.6. Bolzano-Weierstrass sætningen Enhver begrænset følge i R n har en konvergent delfølge. Bevis. Lad {x k } være en en begrænset følge, som er fuldstændig indeholdt i den begrænsede mængde H R n. Da H er begrænset, må der nødvendigvis eksistere to skalarer a og b, hvor a < b, så den lukkede mængde, A 0, er den mængde, hvor a i x i b i for alle i = 1,, n, som indeholder hele H. A 0 opdeles nu i 2 n delmængder ved at dele A 0 ved ai+bi 2 for alle i = 1,, n på alle akserne x 1,, x n. Da x k A 0, må der være mindst én af disse delmængder af A 0, der indeholder uendelig mange indeks; denne mængde udvælges og kaldes A 1, hvorefter A 1 opdeles i 2 k delmængder. Da A 1 indeholder uendelig mange indeks, må der være mindst én af disse delmængder af A 1, hvori der er uendelig mange indeks; denne mængde udvælges og kaldes A 2. Argumentet fortsættes, og en delfølge konstrueres, så der for k = 1, 2, vælges det x k A k således, at k er det mindste indeks med denne egenskab, som ikke er valgt tidligere. x k kaldes x kl. Se på koordinatakserne x j for j = 1,, n. Intervalindsnævringen på x j gør, at det venstre endepunkt a l for l = 1, 2, angiver en voksende opadtil begrænset følge {a l }. Da en voksende opadtil begrænset følge er konvergent (jf. lemma 2.1.5), og da mængderne er lukkede, må det gælde, at fællesmængden ikke er tom. b l for l = 1, 2, angiver en aftagende nedadtil begrænset følge, {b l }; da længden af intervallerne på hver akse går mod nul, så konvergerer {b l } mod det samme tal som {a l }; dette kaldes t j. Altså bliver fællesmængden A j = t. j=1 11

Kapitel 2. Eksistens af ekstrema Det må altså gælde, at der til ethvert ε > 0 eksisterer et N N således, at x kl t < ε, l N. 2.2 Den naturlige topologi for et metrisk rum Dette afsnit har til formål at introducere topologi for et metrisk rum. Et metrisk rum består af en mængde X og en funktion d, der beskriver metrikken mellem to elementer i X. En præcis definition af dette, samt nogle egenskaber, der gør sig gældende i metriske rum, er givet i definition 2.2.1. Definition 2.2.1. Et metrisk rum er en mængde X, samt en funktion d : X X R, der opfylder følgende betingelser for alle x, y, z X: Positiv definit d(x, y) 0, hvor d(x, y) = 0, hvis og kun hvis x = y, (2.1) Symmetri d(x, y) = d(y, x), (2.2) Trekantsuligheden d(x, y) d(x, z) + d(z, y). (2.3) d(x, y) kaldes metrikken og benævnes d. I et metrisk rum er en åben kugle en generalisering af åbne intervaller; en såden med centrum i et punkt a og med radius r er givet i definition 2.2.2. Definition 2.2.2. Lad X være et metrisk rum. For alle r > 0 er den åbne kugle, med centrum i a og med radius r, mængden af punkter B r (a) := {x X d(x, a) < r}. For at generalisere dette yderligere bemærkes det, at ethvert element i et åbent interval, I, ligger i det indre af I; der er altså andre elementer omkring dette, som også ligger i I. Dette er ikke tilfældet med et lukket interval, E, men det gælder for dets komplementær mængde, E c. En generel definition herfor er givet i definition 2.2.3. Definition 2.2.3. Lad n N. i) En delmængde V af X siges at være åben i X, hvis og kun hvis der for alle a V eksisterer et r > 0 således, at B r (a) V. 12

2.2. Den naturlige topologi for et metrisk rum ii) En delmængde E af X siges at være lukket i X, hvis og kun hvis E c := X\E er åben. At en åben kugle er en åben mængde er givet i sætning 2.2.4. Sætning 2.2.4. Enhver åben kugle B R (x 0 ) er en åben mængde i X (se figur 2.1). Figur 2.1: B R (x 0 ) Bevis. Mængden V er angivet som V = B R (x 0 ) = {x X d(x, x 0 ) < R}. Tag et a V således, at d(a, x 0 ) < R. r vælges til r = R d(a, x 0). (2.4) 2 Det bemærkes, at (2.4) er større end nul. Det skal, jf. definition 2.2.3, vises, at B r (a) V = B R (x 0 ), da a er et vilkårligt punkt i V. Dette vises ved, at der for alle x B r (a) gælder, at x B R (x 0 ); dette er ækvivalent med at vise, at d(x, a) < r medfører, at d(x, x 0 ) < R. Afstanden mellem x og x 0 udtrykkes som afstanden mellem x og a og afstanden mellem a og x 0. d(x, x 0 ) d(x, a) + d(a, x 0 ) < r + d(a, x 0 ) = R + d(a, x 0) 2 < R. Så B R (x 0 ) består udelukkende af indre punkter; med andre ord er B R (x 0 ) en åben mængde. At foreningsmængden af arbitrært mange åbne mængder giver en åben mængde, gives i lemma 2.2.5. 13

Kapitel 2. Eksistens af ekstrema Lemma 2.2.5. Betragt en arbitrær ikke-tom indeksmængde F. Lad {V α } α F være en arbitrær samling af åbne mængder; så er A := α V α åben. Bevis. Lad x A. Der må da eksisterer et α x F således, at x V αx. Da V αx er åben, eksisterer et r x > 0 således, at B rx (x) V αx α V α = A. x er derfor et indre punkt i A. Det gælder derudover, at fællesmængden af endelig mange åbne mængder er en åben mængde, hvilket er formuleret i lemma 2.2.6. Lemma 2.2.6. Lad {V j } n j=1 være en endelig samling af åbne mængder; så er B := n j=1 V j åben. Bevis. Antag B. Lad x B. Dvs. x V j for alle j. Der eksisterer derfor et r j > 0 således, at B rj (x) V j. Sæt r := min{r 1, r 2,, r n }. Det må da nødvendigvis gælde, at B r (x) B rj (x) V j for alle j, så B r (x) B. For at kunne opstille sætning 2.2.9 defineres fortætningspunkter og grænsepunkter i hhv. definition 2.2.7 og definition 2.2.8. Definition 2.2.7. Givet er en mængde B X og et b X. b siges at være et fortætningspunkt for B, hvis der eksisterer en følge {x k } k 1 B således, at der for alle ε > 0 findes et x kε b, hvorom der gælder, at x kε B ε (b). Definition 2.2.8. Givet er en mængde B X og et b X. b siges at være et grænsepunkt for B, hvis der eksisterer en følge {x k } k 1 B således, at x k B 1 k (b) og lim k x k = b. Mængden bestående af alle grænsepunkter kaldes mængdens afslutning og noteres B. Sætning 2.2.9 giver, at en lukket mængde er lig med afslutningen af denne, hvilket anvendes i beviset for sætning 2.3.12. Sætning 2.2.9. Lad B X; så er B B. Ydermere er B = B, hvis og kun hvis B er lukket. Bevis. Hvis x B, defineres en konstant følge x k = x B for alle k N, som konvergerer mod a, da d(x k, x) = 0 < 1 k for alle k 1. Antag at B = B. Det er tilstrækkeligt at vise, at B c er åben. Et punkt x vælges, hvor x B c, hvilket er ensbetydende med, at x / B = B. x kan derfor ikke være et grænsepunkt for B. Der 14

2.2. Den naturlige topologi for et metrisk rum må da eksisterer et ε > 0 således, at B ε (x) B = ; med andre ord gælder det, at B ε (x) B c, hvilket er ækvivalent med, at alle punkter i B c er indre punkter, og derved at B c er en åben mængde. Antag at B er lukket, og dermed at B c er åben. Det vises, at der om alle grænsepunkter i B gælder, at x B. Antag modsætningsvist at der eksisterer et x B, hvor x / B, hvilket medfører, at x B c. Da B c er åben, eksisterer et ε > 0 således, at B ε (x) B c, hvilket er ensbetydende med, at B ε (x) B =. Men så kan x ikke være et grænsepunkt for B, hvilket giver en modstrid med, at x B. 2.2.1 Indre mængde, ydre mængde og randen Maksima og minima kan finde sted i det indre af en mængde eller på randen af denne. Disse begreber defineres i dette underafsnit. Hvis udgangspunktet er en delmængde af et metrisk rum (X, d), ønskes det ofte, i optimeringsøjemed, at se isoleret på det indre af denne. Begrebet, det indre, samt en alternativ definition på afslutningen af en mængde, er givet i definition 2.2.10. Definition 2.2.10. Lad E være en delmængde af et metrisk rum X. i) Det indre af E er mængden E 0 := {V V E og V er åben i X}. ii) Afslutningen af E er mængden E := {B B E og B er lukket i X}. Det bemærkes, at det indre af en mængde altid er en åben mængde, mens afslutningen af en mængde altid er en lukket mængde, jf. lemma 2.2.5 og lemma 2.2.6. Som følge af definiton 2.2.10 kan randen defineres. Dette er gjort i definition 2.2.11. Definition 2.2.11. Lad E X. Randen af E er mængden E := {x X for alle r > 0, B r (x) E og B r (x) E c }. Sammenhængen mellem randen, det indre og afslutningen af en mængde er givet i sætning 2.2.12. Sætning 2.2.12. Lad E X; så er E = E\E 0. For bevis se (22) side 358. 15

Kapitel 2. Eksistens af ekstrema 2.3 Kompakte og følgekompakte mængder Dette afsnit har til formål at udlede to hovedresultater; at en mængde er følgekompakt, hvis og kun hvis en mængde er kompakt, samt Heine-Borel sætningen. Nedenstående fem definitioner er nødvendige for at kunne opstille disse. Definition 2.3.1. Lad A være en delmængde af et metrisk rum X og F være en arbitrær ikke-tom indeksmængde. Samlingen af mængder {O α } α F, hvor hvert O α X, er åben. Denne samling af mængder kaldes en åben overdækning af A, hvis A α F O α. Definition 2.3.2. Antag at {O α } α F er en åben overdækning af A. Hvis F er en delmængde af F, så siges {O α } α F at være en deloverdækning, hvis A α F O α stadig gælder. En deloverdækning kaldes endelig, hvis F indeholder endelig mange elementer. Definition 2.3.3. Lad A være en delmængde af et metrisk rum X. A kan dækkes med et endeligt ε-net, hvis der eksisterer et naturligt tal N ε <, hvor punkterne {x 1, x 2,..., x Nε } A således, at A N ε j=1 B ε(x j ). Definition 2.3.4. Lad A være en delmængde af et metrisk rum X. A siges at være kompakt, hvis der for alle åbne overdækninger af A findes en endelig deloverdækning af A. Definition 2.3.5. Lad A være en delmængde af et metrisk rum X. A siges at være følgekompakt, hvis der for alle følger {x k } A findes en konvergent delfølge {x kl }, hvor lim l x kl A. At en mængde er kompakt, hvis og kun hvis denne er følgekompakt, deles op i to sætninger; sætning 2.3.8 og sætning 2.3.9. For at kunne bevise sætning 2.3.8, gives to lemmaer. Lemma 2.3.6. Antag at følgen {x k } A har en billedmængde bestående af endeligt mange punkter. Følgen har da en konvergent delfølge {x kl }, hvor lim l x kl A. Bevis. Antag at følgens billedmængde består af punkterne a 1, a 2,, a N, hvor alle punkterne er forskellige. Mindst ét af disse punkter optræder uendeligt mange gange i følgen. Lad a 1 være dette punkt. Definer en konstant delfølge {x kl }, hvor x kl = a 1 for alle l 1. Dette giver en konvergent delfølge, hvor lim l x kl = a 1 A. Lemma 2.3.7. Antag at følgen {x k } A har et fortætningspunkt a A; så har {x k } en konvergent delfølge, hvor lim l x kl = a. Bevis. Da a er et fortætningspunkt for {x k }, så eksisterer en følge {x kl } {x k } således, at der for alle ε > 0 findes et x klε a, hvorom der gælder, at x klε B ε (a) for alle l 1. Det gælder da, at lim l x kl = a. 16

2.3. Kompakte og følgekompakte mængder Sætning 2.3.8 giver, at hvis en mængde er kompakt, så er denne mængde også følgekompakt. Sætning 2.3.8. Lad A være en delmængde af et metrisk rum (X, d). Hvis A er kompakt, så er A følgekompakt. Bevis. Antag modsætningsvist at A ikke er følgekompakt. Dvs. der eksisterer en følge {x k } A, som ikke antager nogle konvergente delfølger med grænsen indeholdt i A. Lemma 2.3.6 giver, at følgens billedmængde da må indeholde uendelig mange punkter. Derudover giver lemma 2.3.7, at A ikke indeholder nogle fortætningspunkter for denne følge. Derfor må der for alle x A nødvendigvis eksistere et ε x > 0 således, at B εx (x) højest indeholder ét punkt fra følgens billedmængde. {B εx (x)} x A angiver en åben overdækning af A, og da A er antaget værende kompakt, eksisterer der for alle åbne overdækninger (derfor også for denne specifikke åbne overdækning) en endelig deloverdækning: A N B εxj (x j ), N <. j=1 Da {x k } A N j=1 B ε xj (x j ), og der maksimalt antages N forskellige punkter i foreningsmængden N j=1 B ε xj (x j ), konkluderes det, at der findes endeligt mange punkter i følgens billedmængde. Lemma 2.3.6 giver da en konvergent delfølge, hvor grænsen ligger i A, hvilket giver en modstrid med, at A ikke er følgekompakt. Sætning 2.3.9 giver, at en følgekompakt mængde er kompakt. Sætning 2.3.9. Lad A være en delmængde af et metrisk rum X. Hvis A er følgekompakt, så er A kompakt. For bevis se (7) side 5. For at kunne bevise lemma 2.3.11, gives lemma 2.3.10. Lemma 2.3.10. Lad A X være en ikke-tom følgekompakt mængde; så gælder der for alle ε > 0, at A kan dækkes af et endeligt ε-net. For bevis se (7) side 4-5. For at kunne bevise Heine-Borel sætningen gives lemma 2.3.11. Lemma 2.3.11. Lad A X være en (følge)kompakt mængde; så eksisterer en kugle, der indeholder A. 17

Kapitel 2. Eksistens af ekstrema Bevis. Lemma 2.3.10 giver, at A kan dækkes af et endeligt ε-net. Sæt ε := 1. Der eksisterer da N punkter i A, {x 1, x 2,, x N }, således, at A N j=1 B 1(x j ). Sæt R := max{1 + d(x j, x k ) 1 j, k N}. Det gælder da, at B 1 (x j ) B R (x 1 ) for alle j; altså er A B R (x 1 ). Sætning 2.3.12. Heine-Borel sætningen Betragt R d med den euklidiske afstandsformel. I dette metriske rum er en mængde A (følge)kompakt, hvis og kun hvis A er lukket og begrænset. Bevis. Antag at A er lukket og begrænset. Betragt en arbitrær følge {x k } A. Det vises, at der eksisterer en delfølge {x kl }, hvor lim l x kl A. Bolzano-Weierstrass sætning 2.1.6 giver en konvergent delfølge {x kl }, som konvergerer mod et punkt a R, da A er begrænset. Det gælder altså, at a A. Sætning 2.2.9 giver, at A = A, da A er lukket; så a A. A er derfor følgekompakt. Antag at A er kompakt. Da A har ε-net egenskaben, er A begrænset jf. lemma 2.3.11. At A er lukket, er jf. sætning 2.2.9 ensbetydende med, at A = A. Antag modsat at der eksisterer et a A således, at a / A. Da a A eksisterer en følge {x k } A således, at lim k x k = a. Da A er kompakt, er A følgekompakt jf. sætning 2.3.8. At A er følgekompakt garanterer eksistensen af en delfølge {x kl } således, at lim l x kl = α A. Da en konvergent følge konvergerer mod samme grænsepunkt, som alle dens konvergente delfølger, må det nødvendigvis gælde, at α = a. At A α = a / A er en modstrid. Det bemærkes, at en kompakt mængde er lukket og begrænset i alle metriske rum og ikke kun i euklidiske, hvilket ikke gælder omvendt. 2.4 Kontinuerte funktioner defineret på et metrisk rum I dette afsnit vil billeder og urbilleder af kontinuerte funktioner under metriske rum blive præsenteret. Yderligere gennemgås kontinuitet og følgekontinuitet. Afsnittet har til formål at bevise ekstremværdisætningen. Først defineres billedet og urbilledet, hvilket er givet i definition 2.4.1. Definition 2.4.1. Lad (X, d) og (Y, ρ) være to metriske rum. Hvis A X er billedet af A gennem f givet ved mængden f(a) := {y Y der findes x y A således at f(x y ) = y} Y. 18

2.4. Kontinuerte funktioner defineret på et metrisk rum Hvis B Y er urbilledet af B gennem f givet ved mængden f 1 (B) := {x X således at f(x) B} X. En funktion, der er kontinuert i et punkt i et metrisk rum, er defineret i definition 2.4.2. Definition 2.4.2. En funktion f : X Y siges at være kontinuert i et punkt a X, hvis der for alle ε > 0 eksisterer et δ > 0 således, at B δ (a) f 1 (B ε (f(a))), (2.5) hvilket medfører, at f(b δ (a)) B ε (f(a)). Funktionen siges at være kontinuert på X, hvis den er kontinuert i alle punkter a X. Følgekontinuitet af en funktion i et metrisk rum er givet i definition 2.4.3. Definition 2.4.3. En funktion f : X Y siges at være følgekontinuert i et punkt a X, hvis der for alle følger {x k } A, hvor lim k x k = a, gælder om {f(x k )} Y, at lim k f(x k ) = f(a). Funktionen siges at være følgekontinuert på X, hvis den er følgekontinuert i alle punkter a X. I sætning 2.4.4 vises sammenhængen mellem kontinuitet og følgekontinuitet af en funktion; en egenskab der er vigtig, da det ofte er nemmere at vise, at en funktion er følgekontinuert, end at den er kontinuert. Sætning 2.4.4. Betragt en funktion f : X Y. f er kontinuert i a X, hvis og kun hvis f er følgekontinuert i a X. Bevis. Antag f er kontinuert i a X. Betragt en arbitrær følge {x k } X således, at lim k x k = a. (2.5) giver, at for alle ε > 0 eksisterer et δ > 0 således, at d(x k, a) < δ medfører, at d(f(x k ), f(a)) < ε. Da lim k x k = a gælder d(x k, a) < δ, når k N δ 1, hvor N δ N. Altså må {f(x k )} Y konvergere mod f(a). Det vises, at f er kontinuert i a X, når f er følgekontinuert i a X. Antag modsætningsvist at f ikke er følgekontinuert i a X. Så eksisterer et ε 0 således, at der for alle δ > 0 gælder, at B δ (a) f 1 (B ε0 (f(a))). Da denne implikation gælder for alle δ > 0, sættes δ = 1 k for alle k 1. Der findes altså et punkt x k B 1 k (a) således, at f(x k) / B ε0 (f a ). Med andre ord eksisterer et x k således, at d X (x k, a) < 1 n, hvor d Y (f(x k ), a) ε 0. At {x k } A konvergerer mod a, mens {f(x k )} ikke konvergerer mod f(a), angiver en modstrid med antagelsen om, at f er følgekontinuert i a X. 19

Kapitel 2. Eksistens af ekstrema En kontinuert funktion afbildeder en kompakt mængde over i en kompakt mængde, hvilket er givet i sætning 2.4.5. Sætning 2.4.5. Lad (X, d) være et metrisk rum. Betragt en (følge)kontinuert funktion f : A Y, hvor A X er en (følge)kompakt mængde; så er f(a) (følge)kompakt. Bevis. Det vises, at f(a) er følgekompakt. Betragt en arbitrær følge {y k } f(a). For at vise at f(a) er følgekompakt, findes en delfølge {y kl }, hvor lim l y kl f(a). Da f(a) er billedet af A gennem f, gælder det for et givet y k f(a), at der eksisterer et x k A således, at f(x k ) = y k. Da A er følgekompakt findes en følge {x kl } A således, at lim l x kl = a A. Da f er følgekontinuert i a, må det nødvendigvis gælde, at lim l f(x kl ) = f(a) f(a), hvor f(x kl ) = y kl. Ekstremværdisætningen er givet i sætning 2.4.6. Sætning 2.4.6. Ekstremværdisætningen Lad (X, d) være et metrisk rum og lad H X være en kompakt mængde. Lad f : H R være kontinuert på H; så eksisterer x m og x M i H således, at f(x M ) = sup x H f(x) og f(x m ) = inf x H f(x). Bevis. Beviset gives for sup x H f(x), da et tilsvarende argument gælder for inf x H f(x). Det vises først, at der eksisterer en følge {x k } H således, at lim k f(x k ) = sup x H f(x) = sup f(h). Da f(h) er kompakt (jf. sætning 2.4.5), så er f(h) lukket og begrænset (jf. sætning 2.3.12). Aksiom 10 i bilag A giver da, at sup f(h) = sup x H f(x) eksisterer og er endelig. En egenskab ved supremum er, at der for alle k 1 gælder, at sup(f(h)) 1 k ikke er en øvre grænse for f(h). Der må derfor nødvendigvis eksistere et x k H således, at sup(f(h)) 1 k < f(x k) sup f(h). Med andre ord er lim k f(x k ) = sup f(h). Da H er kompakt, eksisterer en delfølge {x kl } H, hvor lim l x kl = a H. Da f er følgekontinuert, gælder det, at lim l f(x kl ) = f(a). Da {f(x kl )} er en delfølge af den konvergente følge {f(x k )}, gælder det, at f(a) = sup f(h). x M vælges til a. Kontinuerte funktioner defineret på en lukket og begrænset mængde og med reelle værdier er de funktioner, der fokuseres på i resten af rapporten. For funktioner af denne type vides det altså, at et maksimum og et minimum eksisterer. I næste kapitel ses på en metode, hvorpå et sådant maksimum eller minimum findes. 20

Kapitel 3. Lineær optimering kapitel 3 LINEÆR OPTIMERING Kapitlet tager udgangspunkt i (16) kapitel 9. I dette kapitel ses på optimering af lineære funktioner underlagt bestemte bibetingelser, som også beskrives ved lineære funktioner; sådan optimering benævnes lineær programmering. Kapitlet gennemgår to metoder til bestemmelse af maksima og minima for et lineært programmeringsproblem: den geometriske metode og simplex-metoden. Disse bruges til at finde den optimale løsning i forskellige problemstillinger. Afsnit 3.1 introducerer den generelle form, hvorpå lineære programmeringsproblemer opskrives. Afsnit 3.2 introducerer nogle centrale resultater omhandlende eksistensen af en optimal løsning for det lineære programmeringsproblem. Afsnit 3.3 introducerer den geometriske metode til løsning af lineære programmeringsproblemer. Dette gøres for at gøre den algebraiske tilgang, som præsenteres i afsnit 3.4, mere letforståelig. Afsnit 3.4 introducerer simplex-metoden, hvori en algoritme gives, som finder maksima eller minima, hvis et sådant eksisterer. Herunder introduceres slack-variable, dualitet og den økonomiske fortolkning af slack-variablene. 21

Kapitel 3. Lineær optimering 3.1 Lineære programmeringsproblemer Dette afsnit tager derudover udgangspunkt i (12) og (17). Et lineært programmeringsproblem går ud på at bestemme et x opfyldende ulighederne f i (x) b i eller f i (x) b i, der enten maksimerer eller minimerer f 0 (x). x er et punkt i R n bestående af x 1, x 2,..., x n, der betegner optimeringsvariablene. Funktionen f 0 (x) : R n R betegner objektfunktionen, og funktionerne f i (x) : R n R med uligheder f i (x) b i og/eller f i (x) b i kaldes bibetingelser. Hvis der ingen bibetingelser er, er problemet defineret uden begrænsninger. Et lineært programmeringsproblem skrives på kanonisk form, hvilket præsenteres i definition 3.1.1. b 1. c 1. Definition 3.1.1. Givet b = i Rm, c = i Rn og en m n matrix A = [a ij ], så er det kanoniske lineære programmeringsproblem følgende. x 1 Bestem et x =. i Rn, som maksimerer objektfunktionen x n b m c n f 0 (x 1,..., x n ) = c 1 x 1 + c 2 x 2 + + c n x n under bibetingelserne f 1 (x 1,, x n ) = a 11 x 1 + a 12 x 2 + + a 1n x n b 1 f 2 (x 1,, x n ) = a 21 x 1 + a 22 x 2 + + a 2n x n b 2. f m (x 1,, x n ) = a m1 x 1 + a m2 x 2 + + a mn x n b m og x j 0 for j = 1,, n. Dette kan tilpasses i vektor-matrix notation Maksimer c T x (3.1) under bibetingelserne Ax b (3.2) og x 0, (3.3) hvor en ulighed mellem to vektorer gælder for hver af deres koordinater. 22

3.1. Lineære programmeringsproblemer Mængden af x, for hvilke objektfunktionen og bibetingelserne er defineret, m F = dom f i, i=0 kaldes den brugbare mængde, F. Ethvert punkt x F, kaldes en brugbar løsning. Problemet, (3.1), siges at være brugbart, hvis der eksisterer mindst én optimal løsning, ellers er det ikkebrugbart. Den optimale værdi f 0 (x k ) for (3.1) er defineret ved f 0 (x k ) = sup{f 0 (x) f i (x) b i, i = 1,, m}. Hvis problemet er defineret uden begrænsninger, hverken opadtil eller nedadtil, så er problemet ikke-brugbart. Det betyder, at f 0 (x k ), når k. (3.4) Et minimeringsproblem med objektfunktionen f 0 (x) kan løses ved at maksimere f 0 (x) (jf. sætning A.0.2). For at vende ulighedstegnet kan begge sider ganges med -1; altså kan a i1 x 1 + + a in x n b i derfor erstattes med a i1 x 1 a in x n b i. En lighed a i1 x 1 + + a in x n = b i, kan erstattes med to uligheder a i1 x 1 + + a in x n b i og a i1 x 1 + + a in x n b i. Med et vilkårligt kanonisk lineært programmeringsproblem kan bibetingelserne være modsigende, og da vil F være den tomme mængde. Eksempel 3.1.2 illustrerer denne problemstilling. 23

Kapitel 3. Lineær optimering Eksempel 3.1.2. Problemet Maksimer 5x under bibetingelserne x 3 x 4 og x 0, er ikke-brugbart, da der ikke findes et x sådan, at x 3 og x 4. 3.2 Optimal løsning Den optimale løsning til et brugbart lineært programmeringsproblem vides at eksistere i den brugbare mængde, F, når denne er lukket og begrænset (jf. sætning 2.4.6). Den brugbare mængde består af en rand og indre punkter. Randen for et lineært programmeringsproblem er udspecificeret i definition 3.2.1. Definition 3.2.1. Randen tilhørende et lineært programmeringsproblem på kanonisk form i R n med m bibetingelser, hvor den brugbare mængde, F, er begrænset, er defineret som P = {x f j (x) = b j og x F}, j {1, 2,, m}. (3.5) Et maksima og minima for et lineært programmeringsproblem befinder sig i randen af F, hvilket er givet i sætning 3.2.2. Sætning 3.2.2. Lad Maksimer c T x (3.6) under bibetingelserne Ax b (3.7) og x 0 (3.8) være et lineært programmeringsproblem med den brugbare mængde, F. Antag at c T maksima eller minima er da altid at finde i randen, P, af F. 0. Et 24

3.2. Optimal løsning Bevis. Antag modsætningsvist at et maksimum eller minimum, x R n, er at finde i det indre af den brugbare mængde. Dvs. at B ε (x) F. Da c T 0, må mindst én af c T s komponenter være forskellig fra nul. x j -koordinaten tilhørende komponenten c j, som er forskellig fra nul, vælges, mens alle andre n 1 koordinater holdes fast. Derved ses det, at ved en ændring af x j opnås en øget (hhv. sænket) værdi af objektfunktionen. x kan derfor ikke være et maksimum (hhv. minimum), hvilket giver en modstrid med antagelsen. Som følge af sætning 3.2.2 er det tilstrækkeligt at undersøge punkter på randen af F for at finde maksima eller minima. I denne rand eksisterer de såkaldte hjørnepunkter, som defineres i definition 3.2.3. Definition 3.2.3. x er et hjørnepunkt i mængden, P, hvis x + y, x y P medfører, at y = 0. (3.9) Punkterne, hvor maksima eller minima kan forekomme, kan udspecificeres yderligere, hvilket gøres i sætning 3.2.4. Sætning 3.2.4. Antag at inf{c T x x P } er endeligt. Det gælder da, at der for alle x P eksisterer et hjørnepunkt x således, at c T x c T x. Bevis. Hvis x er et hjørnepunkt, så vælg x = x. Det vil sige, at c T x = c T x. Hvis x ikke er et hjørnepunkt, så gælder det, jf. definition 3.2.3, at der eksisterer et y 0 således, at x + y, x y P. Se på bibetingelsen f j, hvor f j er den bibetingelse, som er den begrænsende faktor for minimum. Da f j (x + y) = b j og f j (x y) = b j, (3.10) er f j (y) = 0. Vælg et y således, at c T y 0. I tilfældet, hvor c T y = c T ( y) = 0, og hvor y er valgt således, at der eksisterer et i så at y i < 0, er det ikke muligt at opnå en minimering af objektfunktionen ved at addere eller subtrahere en vektor y; altså er den optimale løsning hele linjen og dermed også de(t) tilhørende 25

Kapitel 3. Lineær optimering hjørnepunkt(er). Antag at c T y < 0. Betragt x+λy, hvor λ > 0. Det må da gælde, at c T (x+λy) = c T x+λc T y < c T x. Som følge af valget af y opstilles to tilfælde. Tilfælde 1: Der eksisterer et i således, at y i < 0. Når λ vokser, aftager den i te komponent af x+λy, indtil x+λy ikke længere er en del af P. Vælg derfor λ = min {i yi<0}{ xi y i } := x k y k. Dette er det største λ således, at x+λy 0. Da f j (y) = 0, er f j (x+λy) = f j (x)+λf j (y) = f j (x) = b j. Det vil sige, at x + λy P, og desuden har x + λy en nul-komponent mere, (x + λy) k, end x. Denne iterative proces fortsættes, indtil et hjørnepunkt opnås. Tilfælde 2: y i 0 for alle i. Grundet antagelsen at c T y < 0, gælder det, at x + λy er brugbar for alle λ > 0, da f j (x + λy) = f j (x) + λf j (y) = f j (x) = b j, og x + λy x 0. Men c T (x + λy) = c T x + λc T y når λ, hvilket betyder, at inf{c T x x P } ikke er endeligt. Derfor modstrid. Bemærk at det analogt gælder for lineære maksimeringsproblemer, at den optimale løsning er at finde i et hjørnepunkt, hvilket gælder som følge af sætning A.0.2. Korollar 3.2.5 beskriver sammenhængen mellem optimale løsninger og hjørnepunkter. Korollar 3.2.5. Hvis inf{c T x x P } er endeligt, så eksisterer en optimal løsning, x k, som er et hjørnepunkt. Bevis. Antag modsætningsvist at der eksisterer en optimal løsning x k, som ikke er et hjørnepunkt. Ifølge sætning 3.2.4 eksisterer et hjørnepunkt x således, at c T x c T x k. Det må derfor gælde, at x k er et hjørnepunkt og en optimal løsning. Dette resultat viser, at det er tilstrækkeligt at undersøge den brugbare mængdes hjørnepunkter for at bestemme de optimale løsninger. 3.3 Den geometriske metode I dette afsnit præsenteres den geometriske del af lineær programmering ved mindre problemer. Dette er vigtigt for at visualisere den algebraiske tilgang, som er nødvendig for større problemer. 26

3.3. Den geometriske metode Sætning 3.2.4 beskriver, hvor en optimal løsning eksisterer. Derfor evalueres objektfunktionen ved hver af hjørnepunkterne på F, og det hjørnepunkt, der giver den største værdi, vælges. Dette virker i simple tilfælde, og derfor er den geometriske tilgang begrænset til to eller tre dimensioner. Anvendelsen af den geometriske metode illustreres i eksempel 3.3.1. Eksempel 3.3.1. Maksimer 2x 1 + x 2 under bibetingelserne x 1 + 2x 2 8 3x 1 + 2x 2 24 og x 1, x 2 0. Løsning Figur 3.1 viser den brugbare mængde, det skraverede område, hvilket er opnået ved at plotte ulighederne som ligheder. Ligningerne for de to funktioner, skitseret på figur 3.1, er derfor fremkommet ved at omskrive x 1 + 2x 2 8 og 3x 1 + 2x 2 24 til henholdsvis x 2 = 4 + 1/2x 1 og x 2 = 12 2/3x 1. Der er fire hjørnepunkter i den brugbare mængde. Tabellen herunder viser værdien af objektfunktionen ved hvert hjørnepunkt. (x 1, x 2 ) 2x 1 + x 2 (0, 0) 0 (0, 4) 4 (8, 0) 16 (4, 6) 14 Det ses, at maksimum er 16 i punktet (8, 1). Figur 3.1: Graf over maksimeringsproblemet. 27

Kapitel 3. Lineær optimering 3.4 Simplex-metoden Den geometriske metode har sine tydelige begrænsninger i mere end tre dimensioner, og til at løse problemer med flere variable benyttes simplex-metoden. Der tages udgangspunkt i det kanoniske lineære programmeringsproblem givet i definition 3.1.1, hvor objektfunktionen skal maksimeres. Følgende trin angiver fremgangsmåden for simplex-metoden: 1. Vælg et hjørnepunkt, x, i den brugbare mængde F. 2. Undersøg alle kanter i F, der mødes i x. Hvis ikke objektfunktionen, f 0 (x), kan optimeres ved at bevæge sig langs en af disse kanter, så er x den optimale løsning. 3. Hvis objektfunktionen, f 0 (x), kan optimeres ved at bevæge sig langs en eller flere af disse kanter, så følges den kant, hvor den bedste optimering opnås, hvorefter fokus flyttes til det hjørnepunkt i F, som ligger for enden af denne kant. 4. Gentag fra trin 2. En løsning i et hjørnepunkt kaldes i denne forbindelse for en basisløsning. Simplex-metoden finder med garanti den optimale løsning, hvilket er præcist formuleret i sætning 3.4.1. Sætning 3.4.1. Da værdien af objektfunktionen, f 0 (x), optimeres ved hvert trin, vil et kritisk punkt ikke optræde flere gange, og den optimale basisløsning vil kunne bestemmes (hvis dette er muligt) efter et endeligt antal trin. For bevis se (9). Det bemærkes, at hvis den brugbare mængde ikke er begrænset, vil der i trin 3 undersøges en kant uden et hjørnepunkt, hvorfor f 0 (x) går mod uendelig og derved ikke har nogen løsning (jf. (3.4)). 3.4.1 Slack-variable De såkaldte slack-variable bruges i simplex-metoden til at løse lineære maksimeringsproblemer på kanonisk form. Definition 3.4.2 definerer slack-variable. Definition 3.4.2. En slack-variabel, s, er en ikke-negativ variabel, der på den mindre side af en ulighed sættes til at konvertere denne til en ligning. Slack-variablene indgår ikke i den endelige løsning. 28

3.4. Simplex-metoden Anvendelsen af slack-variable anskueliggøres i eksempel 3.4.3. Eksempel 3.4.3. Uligheden, a 11 x 1 + + a 1k x 2 + + a 1n x n b, konverteres til ligningen, a 11 x 1 + + a 1k x 2 + + a 1n x n + s = b, s 0. Slack-variable har følgende egenskaber: 1. Hvis en slack-variabel er lig nul i den tilhørende bibetingelse, er bibetingelsen allerede en ligning; denne angiver derfor de mulige valg af kritiske punkter. 2. Hvis en slack-variabel er positiv i den tilhørende bibetingelse, er bibetingelsens ulighed konverteret til en ligning. 3. Hvis en slack-variabel er negativ i den tilhørende bibetingelse, er basisløsningen, når denne optræder, ikke-brugbar. Algoritmen for simplex-metoden introduceres her: Bemærk at nogle termer tydeliggøres i eksempel 3.4.4. 29

Kapitel 3. Lineær optimering Algorithm 1 Simplex Require: Maksimering af det kanoniske lineære programmeringsproblem, hvor elementerne i b er ikke-negative. Ensure: Optimal løsning til objektfunktionen 1: Ændre bibetingelserne fra uligheder til ligheder ved at tilføje slack-variablene. Lad M være en variabel svarende til objektfunktionen: c T x M = 0 2: Opstil den første simplex-tabel ud fra ligningerne dannet i trin 1. Slack-variablene og M danner den første basis og dermed den første brugbare løsning. 3: Kontroller den nederste række af tabellen. Hvis alle indgangene til venstre for den lodrette linje er ikke-negativ, så er løsningen optimal. Hvis nogle er negative, så vælges den variabel x k, hvor indgangen i den nederste række er mest negativ. 4: Bring variablen, x k, i basis. Dette gøres ved at pivotere på den positive indgang, a ik, for hvilken det gælder, at det ikke-negative forhold b i /a ik er mindst. (Bemærk at den nye brugbare basisløsning giver en forøget værdi af M.) 5: Gentag processen fra trin 3 indtil alle indgangene i den nederste række er ikke-negative. 6: return Den optimale løsning til objektfunktionen aflæses fra værdien af M, og de pågældende variable aflæses ud fra pivotelementerne i den sidste simplex-tabel. Eksempel 3.4.4 viser simplex-metoden anvendt. Eksempel 3.4.4. Minimer x 1 + 2x 2 under bibetingelserne x 1 + x 2 14 x 1 x 2 2 og x 1, x 2 0. Løsning 30

3.4. Simplex-metoden Omskriv til et lineært programmeringsproblem på kanonisk form. Maksimer x 1 2x 2 under bibetingelserne x 1 x 2 14 x 1 x 2 2 og x 1, x 2 0. Trin 1: Tilføj slack-variable og lad M være en variabel svarende til værdien af objektfunktionen. Dette skaber det lineære ligningssystem x 1 x 2 + x 3 = 14 Trin 2: Den initiale simplex-tabel opstilles x 1 x 2 + x 4 = 2 x 1 + 2x 2 + M = 0. Den første basisløsning er x 1 x 2 x 3 x 4 M 1 1 1 0 0 14 1 1 0 1 0 2 1 2 0 0 1 0. x 1 = x 2 = 0, x 3 = 14, x 4 = 2 og M = 0. Det bemærkes, at den tredje egenskab for slack-variable her gør sig gældende, og derfor er denne basisløsning ikke brugbar. Før selve simplex-metoden kan påbegyndes, skal alle værdierne til højre for den lodrette linje, undtagen den nederste række, være ikke-negative. Det kan løses ved at pivotere på en negativ indgang. For at erstatte en negativ b i -indgang med et positivt tal, skal en anden negativ indgang i samme række findes. I dette eksempel har de to første søjler begge negative indgange. Der pivoteres om enten søjle et række et eller søjle to række et, da 14 1 er den eneste ikke-negative værdi. Der pivoteres om elementet i søjle to række et. Derved fås følgende simplex-tabel som resultat af rækkeoperationerne x 1 x 2 x 3 x 4 M 1 1 1 0 0 14 2 0 1 1 0 16 1 0 2 0 1 28. 31

Kapitel 3. Lineær optimering Det ses, at alle indgangene til højre for den lodrette linje, undtagen den nederste række, positive; simplex-metoden kan derfor genoptages. Det bemærkes, at den første egenskab for slack-variable her gør sig gældende. Slack-variablen x 3 er lig nul, og der findes en mulig brugbar løsning med M = 28, x 1 = 0 og x 2 = 14. Dette er dog ikke den endelige løsning, da der optræder negative værdier i den nederste række til venstre for den lodrette streg; derfor forsætter processen. Trin 3 og 4: ( 1) er den mindste negative værdi i den nederste række, og forholdet 16 2 er mindre end 14 1 ; derfor pivoteres om elementet i række to, søjle et. Den næste tabel ser ud som følger x 1 x 2 x 3 x 4 M 0 1 1/2 1/2 0 6 1 0 1/2 1/2 0 8 0 0 3/2 1/2 1 20. Trin 5: Springes over, da der ikke længere optræder negative værdier i den nederste række. Trin 6: Den maksimale brugbare værdi af objektfunktionen er x 1 2x 2 = 20, hvor x 1 = 8 og x 2 = 6. I det oprindelige minimeringsproblem er den minimale brugbare værdi af dennes objektfunktion derfor x 1 + 2x 2 = 20, hvor x 1 = 8 og x 2 = 6. 3.4.2 Dualitet For ethvert lineært maksimeringsproblem på kanonisk form findes et tilsvarende minimeringsproblem, som kaldes det duale problem. Lad vektorerne c i R n og b i R m, samt en m n matrix A være givet. Da er det kanoniske primære maksimeringsproblem at finde x i R n sådan, at f 0 (x) = c T x maksimeres under bibetingelserne Ax b og x 0. Det duale minimeringsproblem er at bestemme et y i R m, som minimerer g 0 (y) = b T y under bibetingelserne A T y c og y 0. Nedenstående angiver et lineært programmeringsproblem på kanonisk form, P, og dets duale problem, P. 32

3.4. Simplex-metoden Primære problem P : Maksimer f 0 (x) = c T x under bibetingelserne Ax b Duale problem P : Minimer g 0 (y) = b T y under bibetingelserne A T y c x 0. y 0. Det bemærks, at ved dannelse af det duale problem bliver c i -koefficienten til x i i objektfunktionen af det primære problem til højresiden af bibetingelsen, b i, i det duale. Ligeledes bliver højresiden i bibetingelsen i det primære problem, b j, til y j s koefficient i det duale problems objektfunktion. Bemærk også at retningen af bibetingelsen er vendt fra Ax b til A T y c. I begge tilfælde er variablene x og y ikke-negative. Eksempel 3.4.5 giver et konkret eksempel på sammenhængen mellem det primære og duale problem. Eksempel 3.4.5. Find det duale af det primære problem Maksimer 4x 1 + 5x 2 under bibetingelserne x 1 + 2x 2 26 2x 1 + 3x 2 30 x 1 + x 2 13 og x 1, x 2 0. Løsning Minimer 26y 1 + 30y 2 + 13y 3 under bibetingelserne y 1 + 2y 2 + y 3 4 2y 1 + 3y 2 + y 3 5 og y 1, y 2, y 3 0. På kanonisk form bliver det duale af et oprindeligt primært problem til Maksimer under bibetingelserne b T y A T y c og y 0. 33

Kapitel 3. Lineær optimering Det duale af dette problem er Minimer c T w under bibetingelserne ( A T ) T w b og w 0, hvilket i kanonisk form bliver til Maksimer c T w under bibetingelserne Aw b og w 0. Hvis w erstattes med x, er dette problem netop det primære problem. Således er det duale af det duale problem det oprindelige primære problem. Sætning 3.4.6 er et grundlæggende resultat i lineær programmering. Sætning 3.4.6. Dualitetssætningen Lad P være et primært lineært programmeringsproblem med den brugbare mængde F, og lad P være det duale problem med den brugbare mængde F. 1. Hvis F og F begge er ikke-tomme, så har P og P begge brugbare løsninger; dvs. hhv. x og y, hvor f 0 (x) = g 0 (y). 2. Hvis et af problemerne P eller P har en optimal løsning hhv. x eller y, så har den anden også, og f 0 (x) = g 0 (y). Antag P (eller P ) har en optimal løsning. 3. Hvis enten P eller P løses ved simplex-metoden, så fremkommer løsningen af dets duale i den nederste række i den endelige tabel i kolonnerne forbundet med slack-variable. For bevis se (1). Eksempel 3.4.7 viser, hvorledes sætning 3.4.6 kan anvendes. 34

3.4. Simplex-metoden Eksempel 3.4.7. Løs det duale problem ud fra det primære problem P. Det primære problem P er Maksimer f 0 (x 1, x 2, x 3 ) = 2x 1 + 5x 2 + 3x 3 under bibetingelserne x 1 + 2x 2 28 2x 1 + 4x 3 16 x 2 + x 3 12 og x 1, x 2, x 3 0. Løsning Det duale fås til Minimer g 0 (y 1, y 2, y 3 ) = 28y 1 + 16y 2 + 12y 3 under bibetingelserne y 1 + 2y 2 2 2y 1 + y 3 5 4y 2 + y 3 3 og y 1, y 2, y 3 0. Den sidste simplex-tabel af det primære problem bestemmes til x 1 x 2 x 3 x 4 x 5 x 6 M 0 0 0 0 1 2 0 0 12 1 0 2 0 1 2 0 0 8 0 1 1 0 0 1 0 12 0 0 6 0 1 5 0 76. Slack-variablene er x 4, x 5 og x 6. De giver den optimale løsning til det duale problem P, og derfor er y 1 = 0, y 2 = 1 og y 3 = 5. Den optimale værdi af objektfunktionen i det duale problem er g(0, 1, 5) = 28(0) + 16(1) + 12(5) = 76, hvilket er i overensstemmelse med den optimale værdi af objektfunktionen i det primære problem. 35

Kapitel 3. Lineær optimering 3.4.3 Økonomisk fortolkning af slack-variablene Økonomisk set angiver slack-variablene i det primære problems optimale simplex-tabel (og angiver derfor også løsningen til det duale problem) den såkaldte skyggepris. Skyggeprisen er den stigning (hhv. det fald) i den maksimale profit, der opnås ved at lave en lille ændring i en bestemt bibetingelses højreside. Dette illustreres i eksempel 3.4.8. Eksempel 3.4.8. En frugthandler sælger forskellige typer blandinger af frugt; heriblandt en blanding bestående af to æbler og en appelsin (betegnes x 1 ) og en anden blanding bestående af et æble og en banan (betegnes x 2 ). x 1 kan sælges for 5 kr., mens x 2 kan sælges for 4 kr. Frugthandleren har ti æbler, otte appelsiner og otte bananer til rådighed. Ved en formodning om at frugthandleren kan sælge de poser, vedkommende blander, hvor mange poser skal frugthandleren så lave af hhv. x 1 og x 2 for at maksimere sin profit? Løsning Problemet kan matematisk beskrives som Maksimerf(x) = 5x 1 + 4x 2 under bibetingelserne 2x 1 + x 2 10 x 1 8 x 2 8 og x 1, x 2 0 Den initiale simplex-tabel opstilles Jf. algoritme 1 er den sidste simplex-tabel x 1 x 2 x 3 x 4 x 5 M 2 1 1 0 0 0 10 1 0 0 1 0 0 8 0 1 0 0 1 0 8 5 4 0 0 0 1 0. x 1 x 2 x 3 x 4 x 5 M 1 0 0, 5 0 0, 5 0 1 0 0 0, 5 1 0, 5 0 7 0 1 0 0 1 0 8 0 0 2, 5 0 1, 5 1 37. 36

3.4. Simplex-metoden Ud fra den sidste simplex-tabel ses det, at den maksimale profit er 37 kr., og for at opnå denne fortjeneste skal frugthandleren lave én af x 1 og otte af x 2. Det duale problem til f er Minimerg(y) = 10y 1 + 8y 2 + 8y 3 under bibetingelserne 2y 1 + y 2 5 y 1 + y 3 4 og y 1, y 2, y 3 0. Ifølge sætning 3.4.6 gælder f(x ) = g(y ) = 10y 1 + 8y 2 + 8y 3, (3.11) hvor x og y er optimale løsninger til hhv. f og g. Koefficienten 10 foran y 1 er også højresiden af den første bibetingelse i det primære problem. Det betyder, at en ændring i denne koefficient vil ændre den maksimale profit med y 1. Løsningen til det duale problem aflæses ifølge sætning 3.4.6 i det primære problems sidste simplex-tabel til y 1 = 2, 5, y 2 = 0 og y 3 = 1, 5. Altså vil frugthandlerens maksimale profit stige (hhv. falde) med 2, 5 kr. pr. ekstra tilført (hhv. fjernet) æble. At dette gælder kan også illusteres ved at ændre antallet af æbler til rådighed fra 10 til 10+ i den initiale simplex-tabel tilhørende det primære problem Den sidste simplex-tabel er x 1 x 2 x 3 x 4 x 5 M 2 1 1 0 0 0 10 + 1 0 0 1 0 0 8 0 1 0 0 1 0 8 5 4 0 0 0 1 0. x 1 x 2 x 3 x 4 x 5 M 1 0 0, 5 0 0, 5 0 1 + 0, 5 0 0 0, 5 1 0, 5 0 7 0, 5 0 1 0 0 1 0 8 0 0 2, 5 0 1, 5 1 37 + 2, 5. Derfor vil frugthandlerens maksimale profit stige (hhv. falde) med 2, 5 kr. pr. æble ved at hæve (hhv. sænke) antallet af æbler med. Bemærk at 2 14, da højresiden i den 37

Kapitel 3. Lineær optimering sidste simplex-tabel udelukkende må indeholde ikke-negative værdier; ellers er den optimale løsning ikke fundet. På samme måde angiver y 3, at den maksimale profit vil stige (hhv. falde) med 1, 5 kr. pr. banan ved at hæve (hhv. sænke) antallet af bananer. y 2 er lig med nul, hvilket indikerer, at en forøgelse (hhv. nedbringelse) af antallet af appelsiner ikke vil resultere i nogen ændring i frugthandlerens maksimale profit. Med andre ord betyder det, at frugthandleren har appelsiner til overs. Ud fra skyggeprisen er det muligt at vurdere, hvor meget den pågældende virksomhed er villig til at betale for at ændre bibetingelsernes højresider. I eksempel 3.4.8 vil frugthandleren eksempelvis ikke give mere end 2,5 kr. pr. æble for ekstra tilførsel af disse, da 2,5 kr. jo netop er ændringen i den maksimale profit pr. ekstra tilført æble. Da funktionerne, der i dette kapitel blev behandlet, alle er kontinuerte og defineret på en lukket og begrænset mængde, er betingelserne for ekstremværdisætningen opfyldt; så maksimum og minimum eksisterer. Simplex-algoritmen finder altså med sikkerhed den optimale løsning. Langtfra alle funktioner er lineære, og i optimeringsøjemed er det ofte non-lineære funktioner, der analyseres. I næste kapitel ses på metoder til at bestemme maksimum- og minimumsværdier for non-lineære funktioner. 38

Kapitel 4. Non-lineær optimering kapitel 4 NON-LINEÆR OPTIMERING I dette kapitel ses på optimering af non-lineære funktioner, hvilket omhandler to tilfælde ; funktioner med og uden bibetingelser. Afsnit 4.1 introducerer begrebet differentiabilitet. Metoderne, som bearbejdes i dette kapitel, bygger på, at de funktioner, som inkluderes i denne bearbejdelse, er differentiable. Differentiable funktioner har den egenskab, at et væsentligt udsnit af funktionsværdierne, som skal tjekkes for værende optimum, kan undlades. Derved undersøges blot et lille udsnit af disse funktionsværdier. Taylors formel udledes, da denne benyttes i forbindelse med Hessematricen, der behandles i afsnit 4.2. Afsnit 4.2 introducerer begrebet ekstremum i to dimensioner, hvilket generaliseres til flere dimensioner. Derefter introduceres Hessematricen, som er en generel metode til bestemmelse af ekstremumstypen. I underafsnittet Specielle funktioner betragtes funktioner, hvis egenskaber forenkler bestemmelsen af ekstremumstypen. Til slut præsenteres en approksimativ metode til nulpunktsbestemmelse, Newton-Raphson, hvilket overføres til en approksimativ ekstremumsbestemmelse i Newton-metoden. Afsnit 4.3 introducerer to metoder til at bestemme ekstremalværdier for funktioner i flere dimensioner underlagt bestemte bibetingelser; Lagranges multiplikatormetode og Kuhn- Tucker betingelserne. 39

Kapitel 4. Non-lineær optimering 4.1 Differentiabilitet på R n Dette afsnit tager udgangspunkt i (22). I dette afsnit kigges på differentiabilitet i det euklidiske rum R n. Definitionen for partielt afledte er givet i definition 4.1.1. Definition 4.1.1. Betragt en funktion f : V Rn R. Den partielt afledte, j f(x), eksisterer i et punkt a V, hvis og kun hvis grænsen, eksisterer. f f(a + he j ) f(a) (a) := lim, x j h 0 h Den partielt afledte j f(x) eksisterer på V, hvis og kun hvis j f(x) eksisterer i alle a V. Denne definition giver anledning til definition 4.1.2. Definition 4.1.2. Lad V være en ikke-tom, åben delmængde af R n, lad f : V R m og lad p N. f = [f 1, f 2,, f m ] siges at være C p på V, hvis og kun hvis alle partielt afledte af orden k p til f eksisterer, og er kontinuerte på V. Sætning 4.1.3 giver at de første ordens partielt afledte kommuterer, hvilket er et helt centralt resultat, som anvendes i afsnit 4.2.2.1. Sætning 4.1.3. Antag at V er åben i R n, at a V og at f : V R. Hvis f er C 2 på V, så For bevis se (22) side 385-386. 2 f (a) = 2 f (a). x j x k x k x j Definitionen for differentiabilitet i det euklidiske rum R n er givet i definition 4.1.4. Definition 4.1.4. Antag at a R n, at V er en åben mængde, hvor a V, og at f : V R m. f siges at være differentiabel i a, hvis og kun hvis der eksisterer en lineær afbildning T L(R n, R m ) således, at funktionen, ε(h) := f(a + h) f(a) T(h), (defineret for h tilstrækkelig lille) opfylder, at ε(h) h 0 når h 0. 40

4.1. Differentiabilitet på R n f siges at være differentiabel på en mængde E, hvis og kun hvis E er ikke-tom, og f er differentiabel i alle a E. I sætning 4.1.5 fremgår det, at hvis f er differentiabel, så er den lineære afbildning T entydigt bestemt. Standardmatricen (en m nmatrix) til T kaldes den totale afledte til f og noteres Df(a). Sætning 4.1.5. Lad f være en vektorfunktion. Hvis f er differentiabel i a, så eksisterer alle de første ordens partielt afledte til f i a. Det gælder derudover, at den totale afledte til f i a er entydigt bestemt og kan beregnes ved f 1 f [ ] x 1 (a) 1 x n (a) Df(a) = f i x j (a) :=. m n..... f m f x 1 (a) m x n (a) Bevis. Da f er differentiabel, eksisterer en (m n matrix) B (jf. definition 4.1.4) således, at f(a + h) f(a) Bh lim = 0. (4.1) h 0 h Sæt h := te j, hvor j {1, 2,, n}. Dette medfører, at h = t. (4.1) giver, at Det må altså gælde, at f(a + h) f(a) Bh h := f(a + te j) f(a) t Jf. definition 4.1.1 omskrives (4.2) til j f 1 (a) b 1j j f 2 (a) b 2j =... j f m (a) Be j. f(a + te j ) f(a) lim = Be j. (4.2) t 0 t Det må altså gælde, at for enhver differentiabel vektorfunktion f og ethvert punkt a, er én lineær afbildning T, som opfylder definition 4.1.4, og dens standardmatrix givet ved ] Df(a) := [b ij m n = b mj [ ] f i x j (a). m n For at kunne opstille hovedresultatet i afsnit 4.2.2.1 (opdelt i sætning 4.2.15 og sætning 4.2.16) præsenteres Taylors formel. 41

Kapitel 4. Non-lineær optimering 4.1.1 Taylors formel i R I optimeringssammenhæng er Taylors formel relevant i forbindelse med ekstremumbestemmelse. Taylors formel i R er givet i sætning 4.1.6. Sætning 4.1.6. Lad n N og lad a, b tilhøre de udvidede reelle tal, hvor a < b. Hvis f : (a, b) R, og hvis f (n+1) eksisterer på intervallet (a, b), så findes der for hvert par af punkter x, x 0 (a, b) et tal c mellem x og x 0 sådan, at f(x) = f(x 0 ) + n k=1 Leddet f (n+1) (c) (n + 1)! (x x 0) n+1 kaldes Lagranges restled. f (k) (x 0 ) (x x 0 ) k + f (n+1) (c) k! (n + 1)! (x x 0) n+1. Bevis. Antag x 0 < x og definer F (t) := (x t)n+1 (n + 1)! og G(t) := f(x) f(t) n k=1 f (k) (t) (x t) k (4.3) k! for hvert t (a, b). Ud fra (4.3) ses det, at sætningen er bevist, hvis der eksisterer et c mellem x og x 0 således, at G(x 0 ) = f(x) f(x 0 ) n k=1 f (k) (x 0 ) (x x 0 ) k = f (n+1) (c) k! (n + 1)! (x x 0) n+1 = F (x 0 ) f (n+1) (c). (4.4) G (t) beregnes vha. teleskopering. ( ( n G (t) = 0 f d (t) dt k=1 ( n = f (t) = f (t) k=1 ( n k=1 )) f (k) (t) (x t) k k! f (k+1) (t) (x t) k f (k) (t) k! (k 1)! ( f (k+1) (t) k! = f (t) f (n+1) (t) (x t) n n! (x t) k ) + ( n 1 k=1 n k=1 f (k+1) (t) k! (x t)k 1 ) f (k) (t) (x t)k 1 (k 1)! (x t) k ) + ) ( n k=1 f (k) (t) (x t)k 1 (k 1)! ) 42

4.1. Differentiabilitet på R n ( ) = f (t) f (n+1) n 1 (t) (x t) n f (k+1) (t) (x t) k + f (t) (x t)(1 1) n! k! (1 1)! k=1 ( ) n f (k) (t) + (x t)k 1 (k 1)! k=2 = f (t) f (n+1) (t) (x t) n n! ( ) n f (k) (t) + (x t)k 1 (k 1)! k=2 for t (a, b). = f (n+1) (t) (x t) n n! ( n k=2 f (k) (t) (x t)k 1 (k 1)! For at beregne F (t) benyttes kædereglen, hvilket giver, at ( F 1 (t) = (x t)n+1 (n + 1)! for t R. ) ) 1 = (n + 1)! ((n + 1)(x t)n ( 1)) (n + 1)(x t)n = (n + 1)! (x t)n = n! + f (t) Da F og G er differentiable på (x 0, x) og kontinuerte på [x 0, x], opfylder de betingelserne for den generaliserede middelværdisætning (i). Derved eksisterer der et c (x 0, x) således, at Da F (x) = G(x) = 0, fås G(x 0 ) isoleres, hvilket giver, at Bemærk at hvorfor (F (x) F (x 0 ))G (c) = (G(x) G(x 0 ))F (c). G(x 0 ) = F (x 0)G (c) F (c) Dette stemmer overens med (4.4). F (x 0 )G (c) = G(x 0 )F (c). G(x 0 ) = F (x 0)G (c) F. (c) G (t) F (t) = f n+1 (t), (4.5) = F (x 0 ) G (c) F (c) = F (x 0)f n+1 (c). 43

Kapitel 4. Non-lineær optimering 4.2 Ekstrema for funktioner i to eller flere dimensioner Afsnittet tager udgangspunkt i (6), kapitel 13. 4.2.1 Optimering i to dimensioner For at en funktion har lokalt maksimum (hhv. lokalt minimum) gør definition 4.2.1 sig gældende. Definition 4.2.1. En funktion f : I R har lokalt maksimum (hhv. lokalt minimum) i et punkt a I, hvis f(x) f(a) (hhv. f(x) f(a)) for alle x I, som er tilstrækkeligt tæt på a. Hvis uligheden gælder for alle x i definitionsmængden, I, for f, så er der tale om globalt maksimum (hhv. globalt minimum). Et globalt maksimum (hhv. globalt minimum) er altså et særtilfælde af et lokalt maksimum (hhv. lokalt minimum). For funktioner af en variabel kan lokale og globale ekstrema kun forekomme i punkter af typerne angivet i sætning 4.2.2. Sætning 4.2.2. En funktion, f : V R R, hvor f (x) eksisterer, kan kun have lokalt eller globalt ekstremum i et punkt a V, hvis a er på en af følgende former: a er et kritisk punkt, hvor f (a) = 0, a er et singulært punkt, hvor f (a) ikke eksisterer eller a er et endepunkt tilhørende V. Bevis. Antag at a tilhører definitionsmængden, V, af f. Hvis a ikke er et endepunkt, må det altså være et indre punkt, og hvis a ikke er singulært, så må f (a) eksistere. Hvis a ikke er et kritisk punkt, må f (a) 0. Det gælder da, at enten f(a + δ) > f(a) eller f(a + δ) < f(a) for et lille δ 0; f(a) kan derfor hverken være et maksimum eller et minimum. Et ekstremum må derfor nødvendigvis være enten et endepunkt, et singulært punkt eller et kritisk punkt. For at en funktion har et saddelpunkt gør definition 4.2.3 sig gældende. Definition 4.2.3. En funktion f : I R antager et saddelpunkt i a I, hvis f (a) = 0 og der eksisterer to punkter, b 1 og b 2, tilstrækkeligt tæt på a, hvorom det gælder, at f(b 1 ) < f(a) < f(b 2 ). En måde, hvorpå det kan bestemmes, om en funktion af en reel variabel antager lokalt maksimum eller minimum i et kritisk punkt, er givet i sætning 4.2.4. 44

4.2. Ekstrema for funktioner i to eller flere dimensioner Sætning 4.2.4. En to gange differentiabel funktion f : I R, som har et kritisk punkt a I, hvor f (a) = 0 og f (2) (a) > 0 (hhv. f (2) (a) < 0) medfører, at f(x) antager lokalt minimum i a (hhv. lokalt maksimum i a). For bevis se side 248 i (6). Eksempel 4.2.5 illustrerer en anvendelse af sætning 4.2.4. Eksempel 4.2.5. Find det kritiske punkt for henholdsvis f(x) = x 2 og g(x) = x 2 og afgør, om der er tale om lokalt maksimum eller lokalt minimum. Løsning f(x) vurderes. f (x) = 2x, f (2) (x) = 2. Det kritiske punkt findes ved f (x) = 0, 2x = 0, x = 0. Derfor antager funktionen et kritisk punkt for x = 0. Dette indsættes i den dobbeltafledede f (2) (0) = 2. Da f (2) (0) er positiv, gælder det, at der er lokalt minimum i (0, f(0)). Så vurderes g(x). g (x) = 2x, g (2) (x) = 2. Det kritiske punkt findes ved g (x) = 0, 2x = 0, x = 0. Derfor antager funktionen et kritisk punkt for x = 0. Dette indsættes i den dobbeltafledede g (2) (0) = 2. Da g (2) (0) er negativ, gælder det, at der er lokalt maksimum i (0, g(0)). 45

Kapitel 4. Non-lineær optimering 4.2.2 Optimering i højere dimensioner En funktion af flere reelle variable kunne være f(x, y, z) = x 3 y 2 z + 2yz 2 + ln(2xyz 2 ). (4.6) Da det sidste led i (4.6) kræver, at 2xyz 2 > 0, har denne et begrænset definitionsområde. I den generelle situation kigges på en funktion, som er defineret i en delmængde af R n - hertil anvendes notationen f : V Rn R. En funktion har lokalt maksimum (hhv. lokalt minimum), hvis definition 4.2.6 gør sig gældende. Definition 4.2.6. En funktion f : V Rn R har lokalt maksimum (hhv. lokalt minimum) i et punkt a V, hvis f(x) f(a) (hhv. f(x) f(a)) for alle x B δ (a) for et δ > 0. For at kunne opstille de nødvendige kriterier for, hvad der gør sig gældende i et ekstremum, defineres gradienten i definition 4.2.7. Definition 4.2.7. Gradienten til f(x 1, x 2,, x n ) i R n med de kanoniske basisvektorer e 1, e 2,, e n er en vektor, der peger i den retning, hvor funktionen vokser kraftigst. f = f x 1 e 1 + f x 2 e 2 + + f x n e n, f = f(x 1, x 2,, x n ). (4.7) Analogt til, hvad der gør sig gældende for funktioner af en reel variabel, gælder sætning 4.2.8 for flere reelle variable. Sætning 4.2.8. En funktion f(x) = f(x 1, x 2,, x n ) : V Rn R, hvor de partielt afledte eksisterer, kan kun have lokalt eller globalt ekstremum i et punkt a = (a 1, a 2,, a n ) V, hvis a er på en af følgende former et kritisk punkt, der opfylder, at f(x) = 0, et singulært punkt, hvor f(x) ikke eksisterer eller randpunkter tilhørende definitionsmængden, V, af f. Bevis. Antag at a tilhører definitionsmængden, V, af f. Hvis a ikke er et randpunkt, må det altså være et indre punkt, og hvis a ikke er singulært, så må f(a) eksistere. Hvis a ikke er et kritisk punkt, må f(a) 0 således, at f har en positiv retningsbestemt afledet i retning af f(a) og en negativ retningsbestemt afledet i retning af f(a). Da f er voksende i en retning og aftagende i en anden, kan dette punkt altså hverken være et maksimum eller et minimum. Et ekstremum må derfor nødvendigvis være enten et randpunkt, et singulært punkt eller et kritisk punkt. 46

4.2. Ekstrema for funktioner i to eller flere dimensioner En funktion har et saddelpunkt, hvis definition 4.2.9 gælder. Definition 4.2.9. En funktion f : V Rn R antager et saddelpunkt i a V, hvis f(a) = 0, og der eksisterer to punkter, b 1 og b 2, hvor b 1, b 2 B δ (a) for et δ > 0, hvorom det gælder, at f(b 1 ) < f(a) < f(b 2 ). 4.2.2.1 Hessematricen Kritiske punkter kan optræde som maksima, minima eller saddelpunkter. Det kan umiddelbart være svært at afgøre hvilken af de tre tilfælde, der gør sig gældende for et kritisk punkt i R n. I den forbindelse introduceres Hessematricen, da dette er et anvendeligt værktøj til at afgøre, hvornår et punkt er et maksimum, minimum eller et saddelpunkt. For at kunne opstille hovedresultatet i dette afsnit (opdelt i sætning 4.2.15 og sætning 4.2.16), introduceres definition 4.2.10, som angiver, hvornår en symmetrisk matrix A er postiv-, negativeller indefinit. Definition 4.2.10. A er positiv definit, hvis og kun hvis alle egenværdier er positive. A er positiv semidefinit, hvis og kun hvis alle egenværdierne er ikke-negative. A er negativ definit, hvis og kun hvis alle egenværdier er negative. A er indefinit, hvis og kun hvis der eksisterer både positive og negative egenværdier. Tre lemmaer gives for at kunne bevise afsnittets hovedresultat. Lemma 4.2.11. Lad A være en n n matrix med reelle komponenter {a jk }. Matricens norm er da givet ved A HS := n j=1 n k=1 a jk 2, hvilket medfører, at Ax A HS x, x R n. (4.8) For bevis se (8) side 1. Lemma 4.2.12. Lad K := B δ (a) = {y R n y a < δ} være en åben kugle i R n. Lad g : K R være C 1 på K. Lad x være et punkt, hvor x B δ (a). Definer funktionen f : I R R til f(t) = g(a + t(x a)), 0 t 1. Funktionen f er kontinuert på [0, 1], differentiabel på (0, 1) og det gælder, at n f (t) = j g(a + t(x a))(x j a j ). (4.9) j=1 47

Kapitel 4. Non-lineær optimering Bevis. Antag uden tab af generalitet n = 2, da det generelle tilfælde er analogt. Definer x(t) = a 1 + t(x 1 a 1 ) y(t) = a 2 + t(x 2 a 2 ). Det bemærkes, at f(t) = g(x(t), y(t)). Lad t 0 (0, 1) og se på f(t) f(t 0 ) = g(x(t), y(t)) g(x(t 0 ), y(t 0 )) = g(x(t), y(t)) g(x(t 0 ), y(t)) + g(x(t 0 ), y(t)) g(x(t 0 ), y(t 0 )). (4.10) En funktion v : I R R defineres ved v(s) := g(s, y(t)), hvor t holdes fast. Her er I det største interval, der opfylder, at vektoren med komponenter [s, y(t)] ligger i K. Hvis t t 0 er lille nok, vil x(t), x(t 0 ) I. Middelværdisætningen (sætning C.0.8 del ii) giver et c mellem x(t 0 ) og x(t) således, at v(x(t)) v(x(t 0 )) = v (c)(x(t) x(t 0 )) = 1 g(c, y(t))(x 1 a 1 )(t t 0 ). Altså gælder det for et c mellem x(t) og x(t 0 ), at g(x(t), y(t)) g(x(t 0 ), y(t)) = 1 g(c, y(t))(x 1 a 1 )(t t 0 ). (4.11) Et analogt argument med funktionen v(s) = g(x(t 0 ), s) giver et c mellem y(t) og y(t 0 ) således, at g(x(t 0 ), y(t)) g(x(t 0 ), y(t 0 )) = 2 g(x(t 0 ), c)(x 2 a 2 )(t t 0 ). (4.12) Sættes (4.11) og (4.12) ind i (4.10), og hvis t t 0, men t t 0 er lille, fås f(t) f(t 0 ) t t 0 = 1 g(c, y(t))(x 1 a 1 ) + 2 g(x(t 0 ), c)(x 2 a 2 ). (4.13) Siden afstanden mellem punkterne [c, y(t)] og [x(t 0 ), y(t 0 )] og punkterne [x(t 0 ), c] og [x(t 0 ), y(t 0 )] går mod nul, når t går mod t 0, og da de partielt afledte til g er kontinuerte i [x(t 0 ), y(t 0 )], gælder det, at f f(t) f(t 0 ) (t 0 ) = lim = 1 g(x(t 0 ), y(t 0 ))(x 1 a 1 ) + 2 g(x(t 0 ), y(t 0 ))(x 2 a 2 ) t t0 t t 0 2 = j g(a + t 0 (x a))(x j a j ). j=1 En Hessematrix er defineret i definition 4.2.13. 48

4.2. Ekstrema for funktioner i to eller flere dimensioner Definition 4.2.13. Lad g : K Rn R være C 2 på K og x K, så er Hessematricen, H(x), defineret som den n n matrix, der har komponenterne H jk (x) := j k (x). Lemma 4.2.14. Lad funktionen g fra lemma 4.2.12 være C 2 på K. Det gælder da, at for alle x K eksisterer et c x (0, 1) således, at g(x) g(a) = x a, g(a) + 1 2 x a, H(a + c x(x a))(x a). (4.14) Bevis. Da g er C 2 på K, gælder det om funktionen, j g, at j g er C 1 på K for alle j {1, 2,, n}. Definer h j (t) = j g(a + t(x a)), 0 t 1. Da h j (t) er differentiabel på (0, 1), anvendes (4.9), så Definer n h j(t) = (x k a k ) k j g(a + t(x a)). k=1 f(t) = g(a + t(x a)), 0 t 1. Da f (t) = n j=1 (x j a j )h j (t) er differentiabel på (0, 1), anvendes (4.9), så f (2) (t) = n (x j a j )h j(t) = j=1 n j=1 k=1 = x a, H(a + t(x a))(x a). n (x j a j )(x k a k ) k j g(a + t(x a)) Det bemærkes, at f (0) = n j=1 (x j a j ) j g(a) = x a, g(a). Taylors formel (sætning 4.1.6) giver et c x (0, 1) således, at f(t) f(t 0 ) = f (t 0 )(t t 0 ) + f (2) (c x ) (t t 0 ) 2. Sæt t = 1 og 2 t 0 = 0, så f(1) f(0) = f (0) + f (2) (c x ). 2 Det bemærkes, at der kan ske en ændring i c x, hvis der sker en ændring i x. At f(1) = g(x) og f(0) = g(a) afslutter beviset. Afsnittets hovedresultat deles i to sætninger; hhv. sætning 4.2.15 og sætning 4.2.16. Sætning 4.2.15 giver ekstremumbestemmelsen for en positiv eller negativ definit hessematrix. Sætning 4.2.15. Lad funktionen g fra lemma 4.2.12 være C 2 på K og antag, at a er et kritisk punkt. Hvis H(a) er positiv definit (hhv. negativ definit), så er a et lokalt minimum (hhv. lokalt maksimum). 49

Kapitel 4. Non-lineær optimering Bevis. Da a er et kritisk punkt, er g(a) = 0. (4.14) giver, at g(x) = g(a) + 1 2 x a, H(a + c x(x a))(x a). 1 2 x a, H(a)(x a) lægges til og trækkes fra, så g(x) = g(a) + 1 2 x a, H(a)(x a) + 1 2 x a, [H(a + c x(x a)) H(a)](x a). (4.15) Da de første ordens partielt afledte kommuterer (sætning 4.1.3), er H(a) selvadjungeret (definition B.0.7). Spektralsætningen (sætning B.0.9) giver en ortonormal basis bestående af egenvektorer til H(a), {v j } n j=1, hvor de tilhørende egenværdier, {λ j} n j=1, er reelle. Det gælder, at H(a)v j = λ j v j for alle j {1, 2,, n}. Da H(a) udelukkende har reelle indgange, kan egenvektorerne vælges, så indgangene er reelle. Da y = n j=1 y, v j v j (jf. sætning B.0.8), giver lineariteten af H(a), at H(a)y = j=1 n y, v j H(a)v j = j=1 n y, v j λ j v j. Det gælder da, at n n n y, H(a)y = y, v j v j, y, v j λ j v j = λ j y 2 = λ j y, v j 2. j=1 Antag at λ j > 0 for alle j {1, 2,, n} og sæt m = min j {1,2,,n} λ j. Dette giver, at j=1 j=1 y, H(a)y m y 2. (4.16) Hvis (4.16), hvor y = x a, indsættes i (4.15), så bliver g(x) g(a) + m 2 x a 2 + 1 2 x a, [H(a + c x(x a)) H(a)](x a), x K. (4.17) Sæt 1 2 x a, [H(a + c x(x a)) H(a)](x a) = q. Hvis q 0, så er g(x) > g(a). Det vises, at hvis q < 0, så er q < m 2 x a 2, hvilket giver, at g(x) > g(a). Sæt A x := H(a + c x (x a)) H(a). Cauchy-Schwarz ulighed (sætning B.0.5) giver da, at x a, [H(a + c x (x a)) H(a)](x a) = x a, A x (x a) x a A x (x a). Lemma 4.2.11 giver, at x a A x (x a) x a 2 A x HS. Når x a konvergerer mod nul, vil komponenterne a jk af A x givet ved a jk = j k g(a + c x (x a)) j k g(a) 50

4.2. Ekstrema for funktioner i to eller flere dimensioner alle konvergere mod nul uafhængigt af værdien c x (0, 1), grundet kontinuiteten af j k g i punktet a. Der eksisterer derfor et ε > 0 således, at x a < ε medfører, at A x HS < m 2. Det gælder altså, at q < m 2 x a 2 ; da q < 0 gælder det derfor, at q < m 2 x a 2. Altså er a lokalt minimum for g(t). Beviset for at a er et lokalt maksimum, når H(a), er negativ definit er analogt. Sætning 4.2.16 giver ekstremumbestemmelsen for en indefinit Hessematrix. Sætning 4.2.16. Lad funktionen g fra lemma 4.2.12 er C 2 på K og antag, at a er et kritisk punkt. Hvis H(a) er indefinit, så er a et saddelpunkt. Bevis. Lad v ± være to reelle egenvektorer med tilhørende egenvektorer λ ±, hvor v ± = 1. Sæt x ± (t) := a + tv ±, hvor definitionsmængden er givet ved I ± R, som er det største interval, der opfylder, at x ± (t) K. Det bemærkes, at da x ± (0) = a er 0 et indre punkt for både I + og I. Se på I + og definer g + (t) := g + (x + (t)). Sættes x = x + (t) = a + tv + i (4.15) bliver g + (t) = g(a) + 1 2 tv +, H(a)tv + + 1 2 tv +, [H(a + c t tv + ) H(a)]tv + = g(a) + t2 2 v +, λ + v + + t2 2 v +, [H(a + c t tv + ) H(a)]v + = g(a) + λ +t 2 + t2 2 2 v +, [H(a + c t tv + ) H(a)]v +. Sæt t2 2 v +, [H(a + c t tv + ) H(a)]v + = q +. Hvis q + 0, så er g + (t) > g(a). Det vises, at hvis q + < 0, så er q + < λ+t2 2, hvilket giver, at g +(t) > g(a). Da v +, [H(a + c t tv + ) H(a)]v + [H(a + c t tv + ) H(a)]v + H(a + c t tv + ) H(a) HS giver kontinuiteten af j k g i punktet a for et ε + > 0, at når t < ε +, så er H(a + c t tv + ) H(a) HS < λ +. Dette medfører, at q + < λ+t2 2 ; da q + < 0 gælder det derfor, at q + < λ+t2 2. Det gælder altså om punkterne, x, på denne linje, hvor x K, at g(x) > g(a). Se på I og definer g (t) := g (x (t)). Sættes x = x (t) = a + tv i (4.15) bliver g (t) = g(a) λ t 2 + t2 2 2 v, [H(a + c t tv ) H(a)]v. Sæt t2 2 v, [H(a + c t tv ) H(a)]v = q. Hvis q 0, så er g (t) < g(a). Det vises, at hvis q > 0, så er q < λ t2 2, hvilket giver, at g (t) < g(a). Da v, [H(a + c t tv ) H(a)]v H(a+c t tv ) H(a) HS, giver kontinuiteten af j k g i punktet a for et ε > 0, at når t < ε, så er H(a + c t tv ) H(a) HS < λ. Dette medfører, 51

Kapitel 4. Non-lineær optimering at q < λ t2 2. Det gælder altså om punkterne, x, på denne linje, hvor x K, at g(x) < g(a). Herudfra konkluderes det, at a er et saddelpunkt. En alternativ metode til bestemmelse af, om en matrix er positiv-, negativeller indefinit, er givet ved Sylvesters kriterium. 4.2.2.1.1 Sylvesters kriterium Sylvesters kriterium er anvendelig ved matricer med få indgange og kan derfor i en sådan situation anvendes i stedet for beregning af egenværdier. Sylvesters kriterium er angivet i sætning 4.2.17. Sætning 4.2.17. Lad A = (a ij ) n i,j=1 være en symmetrisk matrix og betragt determinanterne D i = a 11 a 12 a 1i a 21 a 22 a 2i...... a i1 a i2 a ii for 1 i n. Altså er D 1 = a 11, D 2 = a 11 a 12 a 21 a 22 = a 11 a 22 a 12 a 21 = a 11 a 22 a 2 12, osv. Hvis D i > 0 for 1 i n, så er A postiv definit. Hvis D i > 0 for de lige tal i = {1, 2,, n}, og D i < 0 for de ulige tal i = {1, 2,, n}, så er A negativ definit. Hvis det(a) = D n 0, og ingen af de ovenstående betingelser gør sig gældende, så er A indefinit. Hvis det(a) = 0, så er A hverken positiv eller negativ definit, og det kan ikke afgøres, om den er indefinit. For bevis se (2). Et eksempel på ekstremumsbestemmelse angives i eksempel 4.2.18. 52

4.2. Ekstrema for funktioner i to eller flere dimensioner Eksempel 4.2.18. Find og klassificer de kritiske punkter af funktionen Løsning f(x, y, z) = xy + x 2 z x 2 y z 2. Ligningerne, der bestemmer de kritiske punkter, er x isoleres i (4.19). x 1 = 0 x = 1. x = 1 sættes ind i (4.20). 1 2 2z = 0 z = 1 2. 0 = 1 f(x, y, z) = y + 2xz 2x, (4.18) 0 = 2 f(x, y, z) = x 1, (4.19) 0 = 3 f(x, y, z) = x 2 2z. (4.20) x = 1 og z = 1 2 sættes ind i (4.18). y + 2(1) ( 1 2) 2(1) = 0 y + 1 2 = 0 y = 1 Det eneste kritiske punkt er P = ( 1, 1, 1 2). For at kunne opskrive Hessematricen, H(P ), udregnes de anden ordens partielle afledte. 1 1 f = 2z 2 1 2 f = 1 1 3 f = 2x 2 1 f = 1 2 2 f = 0 2 3 f = 0 3 1 f = 2x 3 2 f = 0 3 3 f = 2. Hessematricen H(P ) opskrives. 1 1 2 H(P ) = 1 0 0. 2 0 2 For at afgøre, om H(P ) er positiv-, negativeller indefinit, opskrives D 1, D 2 og D 3. D 1 = 1 < 0 D 2 = 1 1 1 0 = 1 < 0 D 3 = 1 1 2 1 0 0 2 0 2 = 1 1 0 2 2 = 2 > 0. 53

Kapitel 4. Non-lineær optimering Da D 2 < 0, udelukkes de 2 første punkter i sætning 4.2.17, og da D 3 0 er matricen indefinit. Der er altså her tale om et saddelpunkt jf. sætning 4.2.16. I eksempel 4.2.19 er der opstillet et problem, hvor ekstremalpunkterne undersøges for en funktion, der er kontinuert på et lukket og begrænset interval. Eksempel 4.2.19. Find ekstremalværdierne for funktionen, f(x, y) = x x 2 + y 2, på rektanglet afgrænset af 0 x 2 og 0 y 1. Løsning Først findes de kritiske punkter. 1 f = 1 2x = 0 2x = 1 x = 1 2 2 f = 2y = 0 y = 0 Det eneste kritiske punkt er P = ( 1 2, 0). For at klassificere dette opskrives Hessematricen H(P ). 1 1 f = 2 1 2 f = 0 2 1 f = 0 2 2 f = 2 H(P ) = 2 0 0 2 For at afgøre, om denne er positiv-, negativeller indefinit, anvendes Sylvesters kriterium, da dette er hurtigere for så lille en matrix i forhold til at finde egenværdierne til deres respektive egenvektorer. D 1 og D 2 opskrives. D 1 = 2 < 0 2 0 D 2 = 0 2 = 4 < 0 Da D 2 < 0, udelukkes de 2 første punkter i sætning 4.2.17, og da D 2 0 er matricen indefinit. Der er altså her tale om et saddelpunkt jf. sætning 4.2.16. Randen undersøges for ekstremalpunkter (se figur 4.1). 54

4.2. Ekstrema for funktioner i to eller flere dimensioner Figur 4.1: f s begrænsninger, randen, er her vist i R 2. Undersøgelse af f(x, 0): (0, 0), (2, 0) Undersøgelse af f(0, y): (0, 0), (0, 1) Undersøgelse af f(2, y): (2, 0), (2, 1) Undersøgelse af f(x, 1): (0, 1), (2, 1) Da funktionen i det indre punkt ( 1 2, 0) antager et saddelpunkt med funktionsværdi f( 1 2, 0) = 1 4, må det altså gælde, at maksimum og minimum ligger i et af randpunkterne. Funktionsværdierne udregnes i de fundne randpunkter: f(0, 0) = 0, f(2, 0) = 2, f(0, 1) = 1 og f(2, 1) = 1. Da der her er tale om et lukket interval, er der globalt maksimum i (0, 1) med en værdi på 1, og globalt minimum i (2, 0) med en værdi på 2. 4.2.3 Specielle funktioner I dette afsnit præsenteres konvekse funktioner (og konvekse mængder, da disse bruges til at præsentere konvekse funktioner i flere dimensioner) i to og flere dimensioner. 4.2.3.1 Konveksitet Afsnittet bygger på (22) side 175-182 med nogle tilføjelser fra (18) side 213-214 og (20) side 209. Konvekse funktioner forenkler som sagt ekstremumsbestemmelsen og er derfor meget anvendelige i optimeringssammenhænge. Der tages udgangspunkt i funktioner af én reel variabel, og dernæst generaliseres der til flere reelle variable. 4.2.3.1.1 Konvekse funktioner af én reel variabel Hvad det vil sige, at en funktion af en variabel er konveks, er defineret i definition 4.2.20. 55

Kapitel 4. Non-lineær optimering Definition 4.2.20. En funktion f : (a, b) R siges at være konveks på (a, b), hvis og kun hvis f(tx + (1 t)y) tf(x) + (1 t)f(y), for alle a < x, y < b, og hvor 0 t 1. siges at være konkav på (a, b), hvis og kun hvis f er konveks på (a, b). Figur 4.2: En konveks funktion, f, på (a, b) Det bemærkes ud fra definition 4.2.20, at f er konveks på (a, b), hvis og kun hvis korden fra (x, f(x)) til (y, f(y)) ligger på eller over grafen for f. At tx + (1 t)y [x, y] tydeliggøres ud fra følgende omskrivning (se figur 4.2): tx + (1 t)y =x + (t 1)x + (1 t)y =x + (1 t)(y x) [x, y], da 0 t 1. På tilsvarende måde ses det, at tf(x) + (1 t)f(y) = f(x) + (1 t)(f(y) f(x)) [f(x), f(y)]. Parameterfremstillingen for korden bliver da x y x + (1 t), t [0, 1]. f(x) f(y) f(x) 56

4.2. Ekstrema for funktioner i to eller flere dimensioner En anden anvendelig karakterisering af konvekse funktioner er givet i sætning 4.2.21. Sætning 4.2.21. En funktion, f, er konveks på et ikke tomt åbent interval (a,b), hvis og kun hvis kordens hældning stiger på (a,b); det vil sige, hvis og kun hvis a < c < x < d < b medfører f(x) f(c) x c f(d) f(x). (4.21) d x En illustration heraf er givet i figur 4.3. Figur 4.3: En konveks funktion, f, på (a, b), som illustrerer, at kordens hældning vokser på (a, b). Bevis. Lad a < c < x < d < b, og lad λ(x) være sekanten gennem punkterne (c, f(c)) og (d, f(d)). Hvis f er konveks, så gælder det, at f(x) λ(x) på (c, d), f(c) = λ(c) og f(d) = λ(d). Det må derfor gælde, at f(x) f(c) x c λ(x) λ(c) x c = λ(d) λ(x) d x f(d) f(x), d x hvilket beviser udsagnet, når f er konveks. Hvis f ikke er konveks, så eksisterer et x således, at f(x) > λ(x). Det må derfor gælde, at f(x) f(c) x c > λ(x) λ(c) x c = λ(d) λ(x) d x hvilket medfører, at kordens hældning ikke vokser på (a,b). > f(d) f(x), d x Et korollar hertil er givet i korollar 4.2.22. 57

Kapitel 4. Non-lineær optimering Korollar 4.2.22. Antag at a < c < x < y < b. Så gælder det for en konveks funktion f : (a, b) R, at Dette er illustreret i figur 4.4. f(x) f(c) x c f(y) f(c). y c Figur 4.4: En konveks funktion, f, på (a, b), som illustrerer, at kordens hældning vokser på (a, b), når kordens ene punkt holdes fast. For at kunne opstille nogle egenskaber ved konvekse funktioner defineres venstre- og højreafledede i definition 4.2.23. Definition 4.2.23. Lad f : (a, b) R og x (a, b). f siges at have en højreafledet i x, hvis og kun hvis eksisterer som et udvidet reelt tal. f(x + h) f(x) D R f(x) = lim h 0+ h f siges at have en venstreafledet i x, hvis og kun hvis eksisterer som et udvidet reelt tal. f(x + h) f(x) D L f(x) = lim h 0 h 58

4.2. Ekstrema for funktioner i to eller flere dimensioner Det bemærkes, at i tilfældet hvor D R f(x) = D L f(x), og D R f(x), D L f(x) er endelige, så er f differentiabel i x. I sætning 4.2.24 er opstillet nogle egenskaber ved konvekse funktioner af én reel variabel. Sætning 4.2.24. Hvis f er konveks på et ikke-tomt åbent interval (a, b), 1. så er f kontinuert på (a, b). 2. så eksisterer de venstre- og højreafledede af f; disse vokser på (a, b) og opfylder, at < D L f(x) D R f(x) <, for alle x (a, b). 3. så eksisterer højst tælleligt mange punkter, hvori f ikke er differentiabel. Beviset herfor kan findes i (22) på side 178 og side 181. 4.2.3.1.2 Konvekse differentiable funktioner af én reel variabel I optimeringssammenhæng har konvekse differentiable funktioner nogle iøjnefaldende egenskaber. Sætning 4.2.25 angiver en karakterisering af differentiable konvekse funktioner. Sætning 4.2.25. Antag at f er differentiabel på et ikke-tomt åbent interval (a, b). Da gælder det, at f er konveks på (a, b), hvis og kun hvis f er monotont voksende på (a, b). Bevis. Antag at f er konveks på (a, b), og at c, d (a, b) opfylder, at c < d. Vælg h > 0 så lille, at c + h < y og d + h < b. Sætning 4.2.21 giver, at f(c + h) f(c) h Når h går mod nul, bliver grænseværdierne f(d + h) f(d). h f f(c + h) f(c) f(d + h) f(d) (x) = lim lim = f (y), h 0 h h 0 h da og bevares under grænsedannelse (jf. sætning C.0.6). Altså er f (c) f (d), når c < d. Omvendt antages det, at f vokser på (a, b). Lad a < c < x < d < b (se figur 4.5). Middelværdisætningen ii bruges til at vælge et x 0 (a, b) og et x 1 (a, b) således, at f(x) f(c) x c = f (x 0 ) og f(d) f(x) d x = f (x 1 ). 59

Kapitel 4. Non-lineær optimering Figur 4.5: En konveks funktion, f, på (a, b), som illustrerer brug af middelværdisætningen. Da x 0 < x 1, så er f (x 0 ) f (x 1 ) grundet antagelsen om, at f er voksende på (a, b). Sætning 4.2.21 giver da, at f er konveks på (a, b). En konsekvens af sætning 4.2.25 er givet i korollar 4.2.26. Korollar 4.2.26. Antag at f er to gange differentiabel på et ikke-tomt åbent interval (a, b). Det gælder da, at f er konveks på (a, b), hvis og kun hvis f (2) 0 for alle x (a, b). Bevis. Antag f (2) 0. Så er f monotont voksende på (a, b), hvilket medfører, at f er konveks. Omvendt hvis f er konveks, så er f monotont voksende, hvilket er ensbetydende med at f (2) 0. Hvad det vil sige, at en funktion antager et ægte lokalt maksimum (eller ægte lokalt minimum) i et punkt, er defineret i definition 4.2.27. Definition 4.2.27. En funktion f : (a, b) R antager et ægte lokalt maksimum (hhv. ægte lokalt minimum) i x 0 (a, b), hvis og kun hvis der eksisterer et δ > 0 således, at f(x) < f(x 0 ) (hhv. f(x) > f(x 0 )) for alle 0 < x x 0 < δ. I forhold til matematisk optimering har konvekse funktioner som sagt nogle anvendelige egenskaber. Sætning 4.2.28 og sætning 4.2.29 udspecificerer to af disse. 60

4.2. Ekstrema for funktioner i to eller flere dimensioner Sætning 4.2.28. Hvis en konveks funktion f : (a, b) R, så har f ikke et ægte lokalt maksimum på (a, b). Bevis. Antag modsætningsvist at der eksisterer et x 0 (a, b) således, at f(x 0 ) er et ægte lokalt maksimum. Dette medfører, at der eksisterer et δ > 0 således, at f(x) < f(x 0 ) for alle x, der opfylder, at 0 < x x 0 < δ. Altså må korden gennem (x 0 δ, f(x 0 δ)) og (x 0 + δ, f(x 0 + δ)) ligge under f(x 0 ), når δ er lille, hvilket er en modstrid med definition 4.2.20. Et stort problem i mange optimeringssammenhænge er ofte at finde det globale minimum af en funktion, der har mange minima. Ved konvekse funktioner kan det dog hurtigt afgøres. Sætning 4.2.29. En konveks funktion f : (a, b) R har højst ét ægte minimum. Bevis. Antag at der eksisterer et x 0 (a, b) således, at f(x 0 ) er et ægte lokalt minimum. Antag derudover modsætningsvist at der eksisterer et y (a, b) således, at f(y) < f(x 0 ). Definition 4.2.20 giver, at f(tx 0 + (1 t)y) tf(x 0 ) + (1 t)f(y) for alle a < x 0, y < b, og hvor t [0, 1]. Når t er tilstrækkeligt tæt på én, vil funktionsværdierne ligge tæt på x 0. Med andre ord: Hvis der findes et δ > 0 således, at (1 t) < δ, så gælder det, at tx 0 + (1 t)y tx 0. Da funktionen antager et ægte minimum i x 0, opstilles følgende ulighed f(x 0 ) < f(tx 0 + (1 t)y) tf(x 0 ) + (1 t)f(y), (1 t) < δ. Dette er ensbetydende med, at f(x 0 ) tf(x 0 ) < (1 t)f(y), (1 t) < δ. f(x 0 ) sættes uden for parantes f(x 0 )(1 t) < (1 t)f(y), (1 t) < δ, hvilket er ensbetydende med, at f(x 0 ) < f(y), (1 t) < δ. At f(x 0 ) < f(y) er en modstrid med antagelsen; altså er et ægte minimum entydigt bestemt. 4.2.3.1.3 Konvekse mængder i R n For at generalisere til konvekse funktioner af n reelle variable er det nødvendigt at introducere konvekse mængder. En delmængde V af R n er konveks, hvis linjen mellem to vilkårlige punkter x og y V er indeholdt i V. For at kunne definere dette, indføres notationen [a, b] i definition 4.2.30. 61

Kapitel 4. Non-lineær optimering Definition 4.2.30. Lad x og y være punkter i R n ; da defineres linjen l(x, y) gennem disse punkter ved l(x, y) = {x + (1 t)(y x) t R}. Linjestykket mellem x og y betegnes [x, y] og er givet ved [x, y] = {x + (1 t)(y x) t [0, 1]}. Om en mængde er konveks defineres i definition 4.2.31. Definition 4.2.31. Lad V være en delmængde af R n. Da siges V at være konveks, hvis x, y V : [x, y] V. Det bemærkes, at x + (1 t)(y x) kan omskrives til tx + (1 t)y. 4.2.3.1.4 Konvekse funktioner af n reelle variable I afsnit 4.2.3.1.1 blev konvekse funktioner af én reel variabel behandlet. Dette kan nu generaliseres til funktioner af n reelle variale. Definition 4.2.20 er omskrevet i definition 4.2.32 ved brug af teorien omkring konvekse mængder. Definition 4.2.32. En funktion f : V Rn R, hvor V er en konveks mængde, kaldes konveks på V, hvis og kun hvis f(tx + (1 t)y) tf(x) + (1 t)f(y), for alle x, y V, og hvor 0 t 1. kaldes konkav på V, hvis og kun hvis f er konveks på V. For at kunne opstille nogle egenskaber ved konvekse funktioner af n reelle variable, defineres ensidede retningsafledede i definition 4.2.33. Definition 4.2.33. Lad u være en enhedsvektor i R n og f : V Rn R være en funktion, hvor x V. Så er de ensidede retningsafledede af f(x) i hhv. retning u og retning u givet ved når grænserne eksisterer. f(x + hu) f(x) D u f(x) = lim h 0+ h og D -u f(x) = lim h 0 f(x hu) f(x), h 62

4.2. Ekstrema for funktioner i to eller flere dimensioner Det bemærkes, at f er differentiabel i x, hvis og kun hvis D u f(x) = D -u f(x). I sætning 4.2.34 opstilles nogle egenskaber ved konvekse funktioner af n reelle variable. Sætning 4.2.34. Hvis en funktion f : V Rn R er konveks på V, 1. så er f kontinuert på V. 2. så eksisterer de ensidede retningsafledede, D u f(x) og D -u f(x). For bevis se (18) side 213-214. Konvekse funktioner af n reelle variable har egenskaber analoge med dem givet i sætning 4.2.28 og sætning 4.2.29. I maksimeringssammenhæng er sætning 4.2.35 anvendelig. Sætning 4.2.35. En konveks funktion f : V Rn antager ikke et ægte lokalt maksimum på V. R, hvor V er en åben konveks mængde, Bevis. Antag modsætningsvist at der eksisterer et x 0 V således, at f(x 0 ) er et ægte lokalt maksimum. Dette medfører, at der eksisterer et δ > 0 således, at f(x) < f(x 0 ) for alle x, der opfylder, at 0 < x x 0 < δ. x skal altså ligge i en åben omegn af punktet x 0 ; denne kaldes U. Vælg en vektor u 0 således, at {x 0 + tu t [ 1, 1]} U. Omskriv f(x 0 ) til f( 1 2 (x 0 u) + 1 2 (x 0 + u)). (4.22) Da f er konveks, gælder der om (4.22), at denne er 1 2 f(x 0 u) + 1 2 f(x 0 + u). (4.23) Grundet antagelsen om, at f antager ægte lokalt maksimum i x 0, gælder der om (4.23), at denne er < 1 2 f(x 0) + 1 2 f(x 0) = f(x 0 ). At f(x 0 ) < f(x 0 ) er en modstrid. I minimeringssammenhæng er sætning 4.2.36 anvendelig. Sætning 4.2.36. Hvis en konveks funktion, f : V Rn R, hvor V er en åben konveks mængde, antager et ægte lokalt minimum i x 0 på V, så er dette minimum også et ægte globalt minimum. 63

Kapitel 4. Non-lineær optimering Bevis. Antag modsætningsvist at der eksisterer et x 0 V således, at f(x 0 ) er et ægte lokalt minimum. Dette medfører, at der eksisterer et δ > 0 således, at f(x) > f(x 0 ) for alle x, der opfylder, at 0 < x x 0 < δ. x skal altså ligge i en åben omegn af punktet x 0 ; denne kaldes U. Antag derudover at der eksisterer et y V således, at f(y) < f(x 0 ). Definition 4.2.32 giver, at f(tx 0 + (1 t)y) tf(x 0 ) + (1 t)f(y) for alle x 0, y V, og hvor t [0, 1]. Når t er tilstrækkeligt tæt på én, vil funktionsværdierne ligge tæt på x 0. Med andre ord, hvis der findes et δ > 0 således at 1 t < δ, så tx 0 + (1 t)y U. Da funktionen antager et ægte lokalt minimum i x 0, så gælder uligheden, f(x 0 ) < f(tx 0 + (1 t)y) tf(x 0 ) + (1 t)f(y), (1 t) < δ. Dette er ensbetydende med, at f(x 0 ) tf(x 0 ) < (1 t)f(y), (1 t) < δ. f(x 0 ) sættes uden for parantes f(x 0 )(1 t) < (1 t)f(y), (1 t) < δ, hvilket er ensbetydende med, at f(x 0 ) < f(y), (1 t) < δ. At f(x 0 ) < f(y) er en modstrid med antagelsen; altså er et ægte lokalt minimum også et globalt minimum. Om en funktion er konveks, kan afgøres ved hjælp af Hessematricen. Dette er angivet i sætning 4.2.37. Sætning 4.2.37. Lad V være en konveks mængde. En funktion f : V Rn R, hvor f C 2, er konveks, hvis og kun hvis Hessematricen, H(x), er positiv semidefinit i ethvert x R n. For bevis se (20) side 209. Et specialtilfælde af konvekse funktioner er kvadratiske former. 4.2.3.2 Kvadratiske former En nødvendig betingelse for en kvadratisk form er, at multipliciteten er lig to i alle led. Et eksempel herpå kunne være f(x 1, x 2, x 3 ) = ax 2 1 + bx 2 2 + cx 2 3 + 2dx 1 x 2 + 2ex 1 x 3 + 2fx 2 x 3. 64

4.2. Ekstrema for funktioner i to eller flere dimensioner En symmetrisk matrix, A, og vektoren, x, opstilles, så a d e A = d b f og x = e f c Den kvadratiske form kan nu skrives, som a d e ] ax 2 1 + bx 2 2 + cx 2 3 + 2dx 1 x 2 + 2ex 1 x 3 + 2fx 2 x 3 = [x 1 x 2 x 3 d b f e f c x 1 x 2 x 3. x 1 x 2 x 3 = xt Ax. Om der er tale om et maksimum eller minimum i det kritiske punkt origo, fremgår ud fra diagonaliseringen. Hvis alle egenværdier er positive, vil funktionen vokse i alle retninger. Hvis alle egenværdier er negative, vil funktionen aftage i alle retninger. Hvis nogle egenværdier er positive og andre er negative, vil funktionen vokse i nogle retninger og aftage i andre. Dette er formuleret mere præcist i sætning 4.2.38. Sætning 4.2.38. Lad A være den symmetriske matrix, som opfylder, at f(x) = x T Ax. Hvis A er positiv definit, så antager f minimum i origo. Hvis A er negativ definit, så antager f maksimum i origo. Hvis A er indefinit, så har f et saddelpunkt i origo. For bevis se afsnit B.1. 4.2.4 Nulpunkts- og ekstremaapproksimation Det at finde nulpunkter er anvendeligt, når det kommer til at finde ekstremalpunkter. Som tidligere nævnt antager en funktion ekstremalværdier i de indre punkter, hvor den afledte er nul, hvis funktionen er af én reel variabel, og hvor gradienten er nul, hvis funktionen er af flere reelle variable. Det er ikke altid muligt at løse sådanne ligningssystemer, som ofte ikke er lineære, eksakt. Derfor introduceres de approksimative metoder, Newton-Raphson og Newton. 4.2.4.1 Newton-Raphson Afsnittet er baseret på (5). Inden for numerisk analyse er Newton-Raphson en metode, hvorved en rod, r, approksimeres i funktioner af én reel variabel på formen f(r) = 0. Sætning 4.2.39 angiver Newton-Raphson-metoden til nulpunktsapproksimation. 65

Kapitel 4. Non-lineær optimering Sætning 4.2.39. Lad funktionen, f : (a, b) R, være kontinuert og to gange differentiabel, hvor f (2) (x), x (a, b) er endelig. Se på en følge, x n, hvor f (x n ) 0, n = 0, 1, 2,. Givet et x 0 tilstrækkelig tæt på en rod, x, vil følgen, konvergere mod denne rod. x n+1 = x n f(x n) f, n = 0, 1, 2,, (4.24) (x n ) Bevis. Et punkt x 0 R gættes til at være tæt på den ønskede rod. Tangentlinjen i dette punkt er givet ved t(x) = f(x 0 ) + f (x 0 )(x x 0 ). Antag at f (x 0 ) 0; da vil tangenten skære x-aksen når t(x) = 0. 0 = f(x 0 ) + f (x 0 )(x x 0 ) f(x 0 ) = f (x 0 )(x x 0 ) x x 0 = f(x 0) f (x 0 ) x = x 0 f(x 0) f (x 0 ). Denne x-værdi sættes til det næste tal i følgen, så x 1 = x 0 f(x0) f (x 0). Iterativt fås en følge, hvor x n+1 = x n f(xn) f (x. Givet antagelserne om, at x n) 0 tilstrækkelig tæt på en rod, og at f (x n ) 0, n = 0, 1, 2,, så vil følgen konvergere; lim n x n = x. Da x n konvergerer mod x, må x n+1 nødvendigvis også konvergere mod x. Dette medfører, at x = x f(x ) f (x ) 0 = f(x ) f (x ) f(x ) = 0. Det er altså bevist, at hvis følgen konvergerer, så konvergerer den mod en rod. Sætning 4.2.40 angiver, hvor hurtigt (4.24) bevæger sig hen mod en rod. Sætning 4.2.40. Lad funktionen, f : (a, b) R, være kontinuert og to gange differentiabel, hvor f (2) (x), x (a, b) er endelig. Se på en følge, x n, hvor f (x n ) 0, n = 0, 1, 2,. Givet et x 0 tilstrækkelig tæt på en rod, x, vil (4.24) konvergere kvadratisk mod denne rod. Lad f(x ) = 0; så findes et M 0 således, at x n+1 x M x n x 2. Bevis. Taylors formel givet i sætning 4.1.6 anvendes. 0 = f(x ) = f(x n ) + f (x n )(x x n ) + f (2) (ξ)(x x n) 2 Alle leddene deles med f (x n ), så 0 = f(xn) f (x n) + x x n + f (2) (ξ) 2f (x n) (x x n ) 2. 2, hvor ξ er et punkt mellem x og x n. (4.24) giver, at f(xn) f (x n) = x n x n+1, hvilket flyttes over på den anden side af lighedstegnet, så x n+1 x n = x x n + f (2) (ξ) 2f (x n) (x x n ) 2, hvilket medfører, at x n+1 x = f (2) (ξ) 2f (x n) (x x n ) 2. Absolutværdien tages på begge sider, så x n+1 x = f (2) (ξ) 2f (x n) (x x n ) 2. Det bemærkes, at nævneren i leddet, f (2) (ξ), er et fast tal, mens tælleren ligger i et interval. 2f (x n) 66

4.2. Ekstrema for funktioner i to eller flere dimensioner Grundet antagelserne om, at f (2) (x), x (a, b) er endelig og, at f (x) 0, kan M da sættes til Det er dermed bevist, at M = sup { f (2) (x) 2f (y) }, x, y (a, b). x n+1 x M x n x 2. Det bemærkes, at jo mindre et M, desto hurtigere konvergerer x n mod x ; det vil altså sige, at approksimationen er hurtig, når f (2) (x) ikke er alt for stor, og f (y) ikke er alt for lille. Et eksempel på Newton-Raphson-metoden er givet i eksempel 4.2.41. Eksempel 4.2.41. Betragt funktionen f(x) = 1 10 x3 x. Beregn en tilnærmet værdi for en rod til f(x) ved brug af Newton-Raphson. Løsning f (x) = 3 10 x2 1. Et x 0 gættes til x 0 = 4, hvorefter de efterfølgende værdier kan beregnes ved (4.24). x 1 = 4 2,4 3,8 = 3, 368421 x 2 = 3, 368421 0,453477 2,403878 = 3, 179777 x 3 = 3, 179777 0,035289 2,033294 = 3, 162421 Løsningen angivet med 6 betydende cifre er x = 3, 16228. 4.2.4.2 Newton-metoden i én variabel Ideen i Newton-Raphson-metoden videreudvikles i Newton-metoden fra at se på de x-værdier, hvor f(x) = 0, til at se på dem, hvor f (x) = 0. Sætning 4.2.42 angiver denne Newton-metode. Sætning 4.2.42. Lad funktionen f : (a, b) R være kontinuert og to gange differentiabel. Lad x 0 være et punkt tilstrækkelig tæt på et ekstrema for f, og antag, at f (2) (x) 0 for alle x (a, b); så vil følgen, konvergere mod et ekstrema. x n+1 = x n f (x n ) f (x n ), (4.25) 67

Kapitel 4. Non-lineær optimering Beviset for sætning 4.2.42 er analogt med beviset for sætning 4.2.39, hvor der her blot approksimeres med det andenordens Taylorpolynomium, hvis afledte sættes lig med nul. Et eksempel på brug af Newton-metoden er givet i eksempel 4.2.43. Eksempel 4.2.43. Angiv ved Newton-metoden, hvor funktionen, f(x) = 2 x 6x + 11, antager et ekstremalpunkt. Løsning f (x) = ln(2) 2 x 6, f (x) = ln(2) 2 2 x. Et x 0 gættes til x 0 = 4, hvorefter de efterfølgende værdier kan beregnes ved (4.25). x 1 = 4 5,0904 7,6873 = 3, 33782 x 2 = 3, 33782 1,00825 4,8577 = 3, 13026 x 3 = 3, 13026 0,0691 4,2068 = 3, 11383 Værdien for x afrundet til 6 betydende cifre, hvor f(x) antager et ekstremalpunkt er x = 3, 11373. Da f (2) (3, 11373) = 4, 16 er der her tale om et minimum, jf. sætning 4.2.4. 4.2.4.3 Newton-metoden i flere variable Newton-metoden kan også overføres til en funktion, f(x), af n reelle variable. Her betragtes de punkter, hvor gradienten er nul. Sætning 4.2.44 angiver Newton-metoden til ekstremaapproksimation i flere variable. Sætning 4.2.44. Lad funktionen, f : V Rn R, hvor f er C 2 på V, være kontinuert. Lad Hessematricen [H(x n )] 0, n = 0, 1, 2, og x 0 være et punkt, der er tilstrækkeligt tæt på det kritiske punkt for f; så vil følgen, x n+1 = x n [H(x n )] 1 f(x n ), (4.26) konvergere mod et ekstrema. Bevis. Ved brug af sætning (C.0.3) fås det bedste approksimerende taylorpolynomium af anden orden med omdrejningspunkt x n. p(x) = f(x n ) + f(x n )(x x n ) + 1 2 (x x n) T H(x n )(x x n ). Dette polynomium differentieres og sættes lig med 0. p (x) = 0 = f(x n ) + H(x n )(x x n ). 68

4.2. Ekstrema for funktioner i to eller flere dimensioner Herefter isoleres x, der sættes lig med x n+1. x n+1 = x n [H(x n )] 1 f(x n ). Antag at x n+1 konvergerer mod x for n ; så må x n også konvergere imod dette punkt. Derved kan ligningen forkortes til 0 = [H(x )] 1 f(x ). Grundet antagelsen om, at [H(x n )] 0, n = 0, 1, 2,, må det gælde, at f(x n ) = 0. Derfor konvergerer følgen mod et kritisk punkt. Et eksempel på brug af Newton-metoden i flere variable er givet i eksempel 4.2.45. Eksempel 4.2.45. Angiv ved Newton-metoden, hvor funktionen, f(x 1, x 2 ) = 2x 2 1 + 2x 2 2 + 3x 1 x 2 + 5x 1 + x 2, antager et ekstremalpunkt. Løsning f(x 1, x 2 ) = 4x 1 + 3x 2 + 5, H(x n ) = 4 3. 4x 2 + 3x 1 + 1 3 4 Det bemærkes allerede nu, at ekstremalpunktet er et lokalt minimum, da H(x n ) er positiv definit for alle x n, n = 0, 1, 2,, da egenværdierne, 4 λ 3 3 4 λ = (4 λ)2 9 = 0 λ 2 8λ + 7 = 0 λ = 1 eller λ = 7, begge er positive. Den inverse matrix til H er givet ved [H(x n )] 1 = 4 7 3 7 Et x 0 gættes til x 0 = (0, 0), hvorefter de efterfølgende værdier kan beregnes ved (4.26). x 1 = (0, 0) ( 17 7, 11 7 f( 17 7, 11 7 ) = 4 7 3 7 3 7 4 7 5 = ( 17 1 7, 11 7 ), og det bemærkes, at 68 7 + 33 7 + 5 = 0. 44 7 + 51 7 + 1 0 Derved er der fundet et lokalt minimum i ( 17 7, 11 7 ). ). Ved yderligere iterationer fås det samme punkt, 3 7 4 7. 4.2.4.4 Problemer ved metoden Der er flere ulemper ved Newton-Raphson- og Newton-metoden; en del af disse ligger i valget af det initiale gæt, x 0. Hvis dette initiale gæt, der foretages, ligger uden for det interval, hvor funktionen konvergerer mod et kritisk punkt, vil metoden ikke tilnærme sig sådant et. Det kan 69

Kapitel 4. Non-lineær optimering også ske, at det valgte gæt eller en af værdierne i sekvensen, som følge af dette gæt, starter en cyklus. Eksempel 4.2.46 illustrerer dette. Eksempel 4.2.46. Betragt funktionen f(x) = 1 4 x4 x 2 + 2x. Beregn en tilnærmet værdi for en rod til f(x) ved brug af Newton-Raphson. Løsning f (x) = x 3 2x + 2. Et x 0 gættes til x 0 = 0, hvorefter de efterfølgende værdier kan beregnes ved (4.24). x 1 = 0 (0)3 2(0) + 2 3(0) 2 = 1. 2 x 2 = 1 (1)3 2(1) + 2 3(1) 2 = 0. 2 Ud fra ligningen ses det at x 2 = x 0, og denne sekvens mellem punkterne 0 og 1 fortsætter i takt med, at n vokser. Derved vil approksimeringen ikke tilnærme sig et kritisk punkt. Det kan også ske,at gættet ikke starter en cyklus, men i stedet en sekvens, hvor x 0 = x 1 =... = x n. Et eksempel herpå er givet i eksempel 4.2.47. Eksempel 4.2.47. Betragt funktionen f(x) = 1 4 x4 + 8x 2. Beregn en tilnærmet værdi for en rod til f(x) ved brug af Newton-Raphson. Løsning f (x) = x 3 + 16x. Et x 0 gættes til x 0 = 0, hvorefter de efterfølgende værdier kan beregnes ved (4.24). 16(0) (0)3 x 1 = 0 16 + 3(0) 2 = 0 16 = 0. Yderligere bemærkes det, at metoden ikke skelner mellem kritiske punkter, men blot finde ét. Med denne metode kan det altså ikke afgøres, om der er tale om et lokalt eller globalt maksimum eller et lokalt eller globalt minimum. 4.3 Ekstrema for funktioner underlagt bibetingelser Dette afsnit bygger på (10), side 974-985, samt (22). Ekstrema for funktioner af flere reelle variable underlagt bestemte bibetingelser bestemmes i 70

4.3. Ekstrema for funktioner underlagt bibetingelser dette afsnit. En måde, hvorpå disse kan bestemmes, er ved at isolere en af variablene i en bibetingelse og substituere ind i enten objektfunktionen eller en anden bibetingelse. Nogle ligninger kan dog være meget komplicerede at løse; derfor introduceres Lagranges multiplikatormetode. 4.3.1 Lagranges multiplikatormetode Lagranges multiplikatormetode kan benyttes til at finde ekstrema for funktioner, som er underlagt bestemte bibetingelser. Dette afsnit behandler en sådan ekstremumbestemmelse for funktioner af to og tre variable, hvorefter der generaliseres til det generelle tilfælde i n variable. 4.3.1.1 To variable med én bibetingelse I to variable bestemmes ekstrema for funktionen f(x, y) under bibetingelsen g(x, y) = 0, som angivet i sætning 4.3.1. Sætning 4.3.1. Lad f og g være C 1 nær punktet P = (x 0, y 0 ), og lad desuden f have ekstremum i P under bibetingelsen g. Desuden skal det gælde, at P er et indre punkt på definitionsmængden for g, og at g(p) 0. Skalaren λ 0, også kaldet Lagranges multiplikator, gør da, at (x 0, y 0, λ 0 ) er et kritisk punkt i den såkaldte Lagrange-funktion, som er givet ved L(x, y, λ) = f(x, y) + λg(x, y). (4.27) I det kritiske punkt, P, for (4.27), er L(P) = 0, hvilket medfører, at f(p) = λ g(p). Bevis. Først vises, at betingelserne, angivet i sætning C.0.4, er til stede. Vektorfunktionen F i sætningen er her bibetingelsen g(x, y) = 0. Én t-værdi vælges, da n = 1 og p = 1. Jacobideter- minanten bliver g x = g x eller g y = g g g y. Da g(p) 0, må enten x (P) 0 eller y (P) 0. Hvis g x y := t. g (P) 0, sættes y := t og hvis y (P) 0, sættes x := t. Uden tab af generalitet sættes Sætning C.0.4 giver, at der findes en kontinuert differentiabel funktion α : W R, hvor W er en åben mængde W R, hvorom det gælder, at t W. Så gælder det, at α(t 0 ) = x 0, og parameterfremstillingen for α er givet ved r(t) = (α(t), t), som ligger på grafen g nær P. Det bemærkes, at r (t) = (α (t), 1) 0. Da r(t) ligger på kurven g(x, y) = 0, må den sammensatte funktion g(r(t)) = 0 for alle t W. Derfor (jf. sætning C.0.5) fås (g(r(t 0 ))) = g(p) r (t 0 ) = 0. 71

Kapitel 4. Non-lineær optimering g(p) og r (t 0 ) står altså vinkelret på hinanden. Grundet antagelsen om at f antager ekstremum i P = (x 0, y 0 ) under bibetingelsen g, så antager funktionen f(r(t)) ekstremum, når t = t 0 sådan, at (f(r(t 0 ))) = 0. Sætning C.0.5 giver derfor, at (f(r(t 0 ))) = f(p) r (t 0 ) = 0. Da både f(p) og g(p) 0 står vinkelret på r (t 0 ) 0, må det gælde, at f(p) ligger i spændet af g(p), så f(p) = λ g(p) (se figur 4.6). Figur 4.6: Illustration der viser, at f(p) = λ g(p). Et eksempel på brug af Lagranges multiplikatormetode til optimering er givet i eksempel 4.3.2. Eksempel 4.3.2. Maksimer f(x, y) = x 3 y 5 under bibetingelsen g(x, y) = x + y 8 = 0. Løsning Lagrange-funktionen opskrives L(x, y, λ) = x 3 y 5 + λ(x + y 8). (4.28) De tre kriterier for et kritisk punkt tilhørende L opskrives 0 = L x = 3x2 y 5 + λ. (4.29) 72

4.3. Ekstrema for funktioner underlagt bibetingelser 0 = L y = 5x3 y 4 + λ. (4.30) λ isoleres i (4.29) og (4.30), hvorved der fås 0 = L = x + y 8. (4.31) λ 3x 2 y 5 = 5x 3 y 4 3x 2 y 5 5x 5 y 4 x 2 y 4 (3y 5x) = 0. (4.32) Jf. nulreglen er ligningen opfyldt, når x = 0, y = 0 eller 3y 5x = 0. Hvis x = 0 sættes ind i (4.31), så bliver y = 8; så (0, 8) er en mulig løsning og har funktionsværdien f(0, 8) = 0. Hvis y = 0 sættes ind i (4.31), bliver x = 8; så (8, 0) er en mulig løsning og har funktionsværdien f(8, 0) = 0. Hvis y isoleres i 3y 5x = 0 og sættes ind i (4.31), fås x = 3, hvilket medfører, at y = 5, så (3, 5) er en mulig løsning. Funktionsværdierne i de mulige løsninger er f(0, 8) = 0, f(8, 0) = 0 og f(3, 5) = 3 3 5 5 = 84.375. f antager derfor lokalt maksimum i (3, 5) under bibetingelsen g. Bemærk at Lagranges multiplikatormetode ikke garanterer, at der findes en løsning for funktioner, som er underlagt bestemte bibetingelser, men kun finder en løsning, som allerede vides eksisterer. En virkelighedsnær problemstilling, hvor Lagranges multiplikatormetode bruges som løsningsmetode, er vist i eksempel 4.3.3. Eksempel 4.3.3. På figur 4.7 ses en tegning over en olieboring og rørledninger, der fører olien ind til havnen. Olieboringerne er underlagt den bibetingelse, at der gennem de to rørledninger skal føres en mængde, Q, olie til havnen; mængden af olie i rør 1 er angivet x, og i rør 2 er mængden angivet y. Olietransporten skal ske hurtigst muligt. Matematisk set skal funktionen f(x, y) = ax 2 + by 2, som angiver tiden for den samlede transport af olie i hhv. rør 1 og 2, minimeres under bibetingelsen g(x, y) = x + y Q = 0. Problemet løses ved Lagranges multiplikatormetode (sætning 4.3.1). 73

Kapitel 4. Non-lineær optimering Figur 4.7: Tegning over olieboring. Løsning f(x, y) = 2ax = λ g(x, y) = λ 1 = λ. 2by 1 λ Herudfra konkluderes det, at 2ax = 2by y = a b x. Denne y-værdi indsættes i g, hvori x isoleres. Analogt bliver y-værdien Derved minimeres f, når x = Q = x + a b x = (1 + a b )x = b + a x x = b b b + a Q. y = b b+a Q og y = a b + a Q. a b+a Q. 4.3.1.2 Tre variable med to bibetingelser I tre variable bestemmes ekstrema for funktionen f(x, y, z) under bibetingelserne g(x, y, z) = 0 og h(x, y, z) = 0 som angivet i sætning 4.3.4. Sætning 4.3.4. Lad f, g og h være C 1 nær punktet P = (x 0, y 0, z 0 ), og lad desuden f have ekstremum i P under bibetingelserne g og h. Antag at g(p), h(p) er lineært uafhængige. Skalarerne λ 0 og µ 0 (Lagrange-multiplikatorerne) gør da, at (x 0, y 0, λ 0, µ 0 ) er et kritisk punkt i den såkaldte Lagrange-funktion, som er givet ved L(x, y, z, λ, µ) = f(x, y, z) + λg(x, y, z) + µh(x, y, z). (4.33) 74

4.3. Ekstrema for funktioner underlagt bibetingelser I det kritiske punkt, P, for (4.33), er L(P) = 0, hvilket medfører, at f(p) = λ g(p) + µ h(p). Bevis. Først vises, at betingelserne, angivet i sætning C.0.4, er til stede. Vektorfunktionen F i sætningen angiver her bibetingelserne g(x, y, z) = 0 og h(x, y, z) = 0. Da n = 2 og p = 1, g g g g g g har Jakobideterminanten 3 mulige udfald; nemlig x y h h, x z h h eller y z h h. Da x y x z y z g(p) a h(p) må det nødvendigvis gælde, at der i mindst én af disse determinanter optræder lineær uafhængighed blandt de to rækker. t vil derfor altid kunne vælges, så Jakobideterminan- g g ten bliver forskellig fra nul. Hvis y z h h 0, sættes x := t osv. Uden tab af generalitet y z sættes z := t. Sætning C.0.4 giver, at der findes en kontinuert differentiabel funktion α : W R 2, hvor W er en åben mængde W R, hvorom det gælder, at t W. Så gælder det, at α(t 0 ) = (x 0, y 0 ). Derfor gælder, at g(α(t), t) = g(x(t), y(t), t) = 0, t W og h(α(t), t) = h(x(t), y(t), t) = 0, t W. Parameterfremstillingen for α er givet ved r(t) = (α(t), t), som ligger på kurven, hvor g = h. r(t) er altså en kontinuert differentiabel kurve indeholdt i bibetingelserne g og h, som er defineret i en omegn af punktet P. Det bemærkes, at g (t) = (x (t), y (t), 1) 0 og h (t) = (x (t), y (t), 1) 0. Da r(t) g, så må g(r(t)) = 0; ligeledes da r(t) h, må h(r(t)) = 0. Sætning C.0.5 giver, at (g(r(t 0 ))) = g(p) r (t 0 ) = 0. (h(r(t 0 ))) = h(p) r (t 0 ) = 0. Både h(p) og g(p) står altså vinkelret på r (t 0 ) og udspænder en plan, A, hvor A = r (t 0 ). Grundet antagelsen om, at f antager ekstremum i P = (x 0, y 0, z 0 ) under bibetingelserne g og h, så antager funktionen f(r(t)) ekstremum, når t = t 0, sådan at (f(r(t 0 ))) = 0. Sætning C.0.5 giver derfor, at (f(r(t 0 ))) = f(p) r (t 0 ) = 0. f(p) står altså vinkelret på r (t 0 ) 0 og tilhører derfor r (t 0 ). Det er dermed bevist, at f(p) = λ 1 g(p) + λ 2 h(p) (se figur 4.8). 75

Kapitel 4. Non-lineær optimering Figur 4.8: Konklusion af sætning 4.3.4. Et eksempel herfor er givet i eksempel 4.3.5. Eksempel 4.3.5. Find maksimum og minimum for f(x, y, z) = 4 z under bibetingelserne x 2 + y 2 8 = 0 og x + y + z 1 = 0. Løsning Lagrange-funktionen opskrives L(x, y, z, λ, µ) = 4 z + λ(x 2 + y 2 8) + µ(x + y + z 1). (4.34) De fem kriterier for et kritisk punkt for L opskrives 0 = L = 2λx + µ. (4.35) x 0 = L y = 2λy + µ. (4.36) 0 = L z = 1 + µ. (4.37) 76

4.3. Ekstrema for funktioner underlagt bibetingelser 0 = L λ = x2 + y 2 8. (4.38) 0 = L = x + y + z 1. (4.39) µ (4.35) og (4.36) sættes lig hinanden, hvorved x = y opnås. Vha. x = y og (4.38) bestemmes x = 2 eller x = 2. Bestemmelsen af x og y benyttes i (4.39) til at bestemme z = 3 og z = 5. Konklusionen er derfor Ved z = 3 er der lokalt maksimum på f(x, y, 3) = 4. Ved z = 5 er der lokalt minimum på f(x, y, 5) = 1. 4.3.1.3 n variable med k bibetingelser Ofte er det nødvendigt at kunne løse problemer for funktioner af flere variable underlagt flere bibetingelser end hidtil antaget. Den generelle form af Lagranges multiplikatormetode fremføres i dette underafsnit. I n variable bestemmes ekstrema for funktionen f(x 1, x 2,, x n ) under bibetingelserne g 1 (x 1, x 2,, x n ) = 0, g 2 (x 1, x 2,, x n ) = 0,, g k (x 1, x 2,, x n ) = 0, som angivet i sætning 4.3.6. Sætning 4.3.6. Lad f, g 1, g 2,, g k være C 1 nær punktet P = (x 0,1, x 0,2,, x 0,n ), og lad desuden f have enten lokalt maksimum eller minimum i P under bibetingelserne g 1, g 2,, g k. Antag at g 1 (P), g 2 (P),, g k (P) er lineært uafhængige. Lagrange-multiplikatorerne λ 1, λ 2,, λ k gør da, at P = (x 0,1, x 0,2,, x 0,n, λ 0,1, λ 0,2,, λ 0,k ) er et kritisk punkt i den såkaldte Lagrangefunktion, som er givet ved k L(x 1, x 2,, x n, λ 1, λ 2,, λ k ) = f(x 1, x 2,, x n ) + λ i g i (x 1, x 2,, x n ). (4.40) I det kritiske punkt, P, for (4.40), er L(P) = 0, hvilket medfører, at i=1 f(p) = λ 1 g 1 (P) + λ 2 g 2 (P) + + λ k g k (P). (4.41) Bevis. Først vises, at betingelserne, angivet i sætning C.0.4, er til stede. Vektorfunktionen F i k k sætningen angiver her bibetingelserne g i = 0. Disse sættes til g i (x 1, x 2,, x k, t 1, t 2,, t n k ). i=1 i=1 77

Kapitel 4. Non-lineær optimering Der argumenteres nu for, hvordan t-værdierne i det generelle tilfælde kan vælges så Jakobideterminanten deta bliver forskellig fra nul, hvor A er en k k, som beskrevet i sætning C.0.4. Betragt n (n + k) matricen, [ g 1 (P) g 1 (P) g k (P) e 1 e 2 e n ], (4.42) hvor e 1,, e n angiver de kanoniske basisvektorer i R n. Da g 1 (P), g 2 (P),, g k (P) er lineært uafhængige kan (4.42) rækkereduceres, så de første k søjler bliver pivotsøjler, og de sidste n k pivotsøjler vil være fordelt blandt de kanoniske basisvektorer. Betragt nu n n matricen bestående af de søjlevektorer, der udgør en basis for søjlerummet til (4.42); denne matrix benævnes B. Da søjlerne til B er lineært uafhængige er matricen invertibel, hvilket er ensbetydende med (jf. sætning B.0.3) at detb 0. t-værdierne vælges, så t j := x i, hvis og kun hvis, e i er en basisvektor for søjlerummet til (4.42). Det vil da enten gælde, at deta =detb eller deta = detb, hvilket er ensbetydende med at deta 0; dette er tydeligt da deta eller deta kan opnås ud fra B ved at beregne detb med udvikling langs de sidste n k søjler. Sætning C.0.4 giver, at der findes en kontinuert differentiabel vektorfunktion α : W R k, hvor W er en åben mængde W R n k, hvorom det gælder, at t W. Så gælder det, at α(t 0 ) = (x 0 ) og G(α(t), t) = 0, t W, hvor G = (g 1, g 2,, g k ). α(t) er altså en vektorfunktion bestående af n k kontinuert differentiable kurver; disse kurver er indeholdt i bibetingelserne g i, hvor i = 1,, k, og er defineret i en omegn af punktet P. Parameterfremstillingen for α er givet ved r(t) = (α(t), t). Det bemærkes, at G (r(t)) 0, hvilket er ensbetydende med, at g 1 (P), g 2 (P),, g k (P) 0. Da r(t) g i, så må g i (r(t)) = 0. hvor i = 1,, k. Sætning C.0.5 giver, at (g i (r(t 0 ))) = g i (P) r (t 0 ) = 0, i = 1,, k. g i (P) står altså vinkelret på den hyperplan udspændt af de n k retningsvektorer for r (t 0 ) og udspænder et k-dimensinelt rum, A, hvor A = r (t 0 ). Grundet antagelsen om, at f antager ekstremum i P under bibetingelserne g i, hvor i = 1, k, så antager funktionen f(r(t)) ekstremum, når t = t 0 sådan, at f (r(t 0 )) = 0. Sætning C.0.5 giver derfor, at (f(r(t 0 ))) = f(p) r (t 0 ) = 0. f(p) står altså vinkelret på den hyperplan udspændt af de n k retningsvektorer for r (t 0 ) 0 og tilhører derfor r (t 0 ). f(p) kan derfor skrives som en linearkombination af g i (P), i = 1,, k. 78

4.3. Ekstrema for funktioner underlagt bibetingelser 4.3.1.4 Økonomisk fortolkning af Lagranges multiplikatorer Den økonomiske fortolkning af Lagranges multiplikatorer er baseret på (19) side 448-450. To variable med én bibetingelse Sætning 4.3.7 angiver den økonomiske betydning af Lagranges multiplikatorer. Sætning 4.3.7. Betragt problemet at maksimere objektfunktionen f(x), hvor x = (x 1, x 2 ), under bibetingelsen g(x) = w. Antag, mht. Lagranges multiplikatormetode, at der til hver enkelt værdi w tilhører værdierne (x*(w), λ*(w)), som gør, at f(x*(w)) er maksimum eller minimum for den tilhørende w-værdi. Antag derfor også at f og g har kontinuerte første ordens partielle afledte nær punktet x*(w). Da gælder, at λ*(w) angiver, hvor meget objektfunktionens maksimum eller minimum ændrer sig ved en one-unit-ændring i w. Bevis. Af kædereglen fås differentialet af f(x*(w)) til d f f(x*(w)) = (x*(w)) dx 1* f (w) + (x*(w)) dx 2* (w). (4.43) dw x 1 dw x 2 dw Bemærk at Lagranges multiplikatormetode (sætning 4.3.1) kan omskrives til sammenkoblingen mellem (4.44) og (4.45). f(x, y) = λ g(x, y) (4.44) g(x, y) = w. (4.45) Da (x*(w), λ*(w)) er løsning til Lagrange-funktionen defineret ved (4.44) og (4.45), hvorfor (4.46), f x i (x*(w)) = λ*(w) g x i (x*(w)), i = 1, 2, (4.46) gælder. (4.43) omskrives til ( d g f(x*(w)) = λ*(w) (x*(w)) dx 1* g (w) + (x*(w)) dx ) 2* dw x 1 dw x 2 dw (w). (4.47) Ved at differentiere (4.45) mht. w fås, at Derved kan (4.47) skrives som g (x*(w)) dx 1* g (w) + (x*(w)) dx 2* (w) = 1. (4.48) x 1 dw x 2 dw d f(x*(w)) = λ*(w). (4.49) dw 79

Kapitel 4. Non-lineær optimering Værdien af λ*(w) tilhørende objektfunktionens optimum angiver altså, hvor meget objektfunktionens maksimum ændrer sig ved en one-unit-ændring i w. Eksempel 4.3.8. En virksomhed producerer to komponenter, x = (x 1, x 2 ), og omkostningsfunktionen (objektfunktionen) kan beskrives som f(x) = x 2 1 +2x 2. De to komponenter bruges i en serie vare. De to komponenter kan erstatte hinanden, og virksomheden skal producere ti komponenter i alt. Produktionsbegrænsningen (bibetingelsen) er derfor g(x) = 10 = x 1 + x 2. Hvor mange komponenter af henholdsvis x 1 og x 2 skal virksomheden producere for at minimere omkostningsfunktionen mest muligt? Løsning Lagrange-funktionen opskrives L(x, y, λ) = x 2 1 + 2x 2 + λ(x 1 + x 2 10). (4.50) De tre kriterier for et kritisk punkt tilhørende L opskrives 0 = L x 1 = 2x 1 + λ. (4.51) 0 = L x 2 = 2 + λ. (4.52) λ isoleres i (4.51) og (4.52), hvorved det fås, at 0 = L λ = x 1 + x 2 10. (4.53) x 1 = 1. (4.54) Derved er x 2 = 9, og den minimale omkostning for virksomheden er f(1, 9) = 1 2 + 2 9 = 19. (4.55) Ud fra (4.52) ses det, at λ = 2. Dvs. ved at ændre antallet af komponenter, som virksomheden skal producere, fra ti til ni (one-unit-ændring), falder, jf. 4.3.7, omkostningsfunktionens minimum med 2; altså til 17. 80

4.3. Ekstrema for funktioner underlagt bibetingelser n variable med k bibetingelser Ligeledes gælder det i tilfældet i n variable med k bibetingelser, at den pågældende bibetingelses λ-værdi angiver ændringen i objektfunktionens maksimale værdi ved en one-unit-ændring i en af bibetingelsernes højresider, hvilket er anført i sætning 4.3.9. Sætning 4.3.9. Betragt problemet at maksimere objektfunktionen f(x), hvor x = (x 1,, x n ), under bibetingelserne g 1 (x) = w 1,, g k (x) = w k. Antag mht. Lagranges multiplikatormetode, at til hver enkelt sæt af w-værdier tilhører værdierne (x (w 1,, w k ), λ (w 1,, w k )), som gør, at f(x (w 1,, w k )) er maksimum for de tilhørende w-værdier. Da gælder, at λ j (w 1,, w k ) angiver, hvor meget objektfunktions, f, maksimum ændrer sig ved en one-unit-ændring i w j. Derudfra fås w j f(x 1(w 1,, w k ),, x n(w 1,, w k )) = λ j (w 1,, w k ), (j = 1,, k). Beviset for sætning 4.3.9 er analogt med beviset for sætning 4.3.7. 4.3.2 Kuhn-Tucker Dette afsnit bygger på (23). Lagranges multiplikatormetode er ikke særlig anvendelig i virkelighedsnære problemstillinger, da bibetingelserne kun tillades værende ligheder. En udvidelse af Lagranges multiplikatormetode er derfor at tillade både uligheder og ligheder, og et specialtilfælde af en sådan udvidelse fås ved kun at tillade ikke-negative variable. Problemet kan derfor matematisk formuleres som Maksimer f(x) (4.56) under bibetingelserne g i (x) b i 0, i = 1, 2,, m (4.57) x i 0, i = 1, 2,, n. (4.58) Ved at finde punkter, som opfylder de såkaldte Kuhn-Tucker betingelser, kan ovenstående problem løses. Kuhn-Tucker betingelserne kan opdeles i to: de nødvendige og de tilstrækkelige betingelser. De nødvendige Kuhn-Tucker betingelser er angivet i sætning 4.3.10. Sætning 4.3.10. Lad V = B r (x 0 ) og lad f og g i være C 1 på V. Lad desuden f have maksimum i punktet x 0 under bibetingelserne g i, hvor i = 1, 2,, m. Da eksisterer m Lagrange multiplikatorer λ 1, λ 2,, λ m, som gør, at Lagrange-funktionen, m L(x, λ) = f(x 1, x 2,, x n ) + λ i g i (x 1, x 2,, x n ), (4.59) i=1 81

Kapitel 4. Non-lineær optimering som er opstillet på baggrund af (4.56), opfylder de følgende nødvendige betingelser for, at punktet x 0 er et maksimum: L L 0, x i 0, x i = 0, i = 1, 2,.., n (4.60) x i x i g j (x) b j, λ j 0, λ j (b j g j (x)) = 0, j = 1, 2,.., n. (4.61) Disse er også kendt som de nødvendige Kuhn-Tucker betingelser. For bevis se (13) side 16-19. I modsætning til Lagranges multiplikatormetode behøver x 0 ikke at ligge på randen af bibetingelsen g i for at opfylde de nødvendige Kuhn-Tucker betingelser. Punktet kan også være placeret i det område, hvor g i (x 0 ) b i < 0 (i = 1, 2,, m); i dette tilfælde siges g i at være ikkebegrænsende. Hvis g i (x 0 ) b i = 0 (i = 1, 2,, m) siges g i at være begrænsende. Betingelse (4.61) giver, at hvis g i er ikke-begrænsende, så er λ 0,j = 0. Dette betyder, at hvis x 0 ikke befinder sig på randen af g i, medtages g i ikke i beregningen af x 0. Ikke-begrænsende bibetingelser begrænser, som navnet antyder, altså ikke objektfunktionen. Bemærk at betingelserne i (4.60) stammer fra bibetingelsen x i 0 (i = 1,.., n). Opfyldelse af sætning (4.3.10) er nødvendig, hvis et punkt skal være maksimum for objektfunktionen, f(x). Minimeringsprblemer løses ved at omskrive minimeringsproblemet til et maksimeringsproblem (minimeringsproblemets objektfunktion f(x) erstattes med f(x)). For at være sikker på, at det fundne punkt er et maksimum, introduceres de såkaldte tilstrækkelige Kuhn-Tucker betingelser. Sætning 4.3.11. Punktet fundet ved sætning 4.3.10 er lokalt maksimum, hvis følgende betingelser er opfyldt: f(x) er differentiabel og konkav for x i 0, g i (x) er differentiabel og konveks for x i 0. Disse betingelser kaldes de tilstrækkelige Kuhn-Tucker betingelser. For bevis se (24). Eksempel 4.3.12 illustrerer anvendelsen af Kuhn-tucker. 82

4.3. Ekstrema for funktioner underlagt bibetingelser Eksempel 4.3.12. Begragt minimeringsproblemet Minimer f(x, y) = (x 1) 2 + (y 1) 2 4 under bibetingelserne g(x, y) = 2x 1 0, x, y 0. Dette er ækvivalent med følgende maksimeringsproblem: Maksimer f(x, y) = (x 1) 2 (y 1) 2 + 4 under bibetingelserne g(x, y) = 1 2x 0, x, y 0. Løsning Lagrangefunktionen opskrives: L(x, y, λ) = (x 1) 2 (y 1) 2 + 4 + λ(1 2x). (4.62) Jf. sætning 4.3.10 er de nødvendige Kuhn-Tucker betingelser: Antag at λ = 0. L = 2(x 1) 2λ 0, x x 0, x( 2(x 1) 2λ) = 0 (4.63) L = 2(y 1) 0, y y 0, y( 2(y 1)) = 0 (4.64) L = 1 2x 0, λ λ 0, λ(1 2x) = 0. (4.65) (4.63) giver, at 2x 2 + 2x = 0, hvilket er ensbetydende med, at x = 1 eller x = 0. Hvis x = 0 sættes ind i 2(x 1) 0, bliver 2 0, hvilket er en modstrid, så x = 1. Af (4.64) bestemmes y til 2y 2 + 2y = 0, hvilket er ensbetydende med, at y = 1 eller y = 0. Hvis y = 0 sættes ind i 2(y 1) 0 bliver 2 0, hvilket er en modstrid, så y = 1. Ved x = 1, y = 1 og λ = 0 er de nødvendige Kuhn-Tucker betingelser opfyldt, og L(1, 1, 0) = 4. Antag 1 2x = 0. Dette medfører, at x = 1 2. x = 1 2 sættes ind i (4.63), hvilket giver, at λ = 1 2. Det kritiske punkt i Lagrange-funktionen bliver da (x, y, λ) = ( 1 2, 1, ( 2) 1. Værdien i dette punkt er L 1 2, 1, ) 1 2 = 15 15 4. Da 4 < 4, er maksimum fundet i (1, 1, 0). Objektfunktionen antager derfor lokalt maksimum i (1,1) med funktionsværdien f(1, 1) = 4. 83

Kapitel 4. Non-lineær optimering I det oprindelige minimeringsproblem er der derfor lokalt minimum i (1,1) med funktionsværdien f(1, 1) = 4. De udvalgte metoder til ekstremumsbestemmelse og derved optimering for både lineære og nonlineære funktioner af reelle variable er derved behandlet. I det følgende kapitel vil nogle af de præsenterede metoder fra kapitel 3 og kapitel 4 anvendes på virkelighedsnære økonomiske problemstillinger. 84

Kapitel 5. Anvendelse kapitel 5 ANVENDELSE Kapitlet har til formål at anvende nogle af de metoder, der er præsenteret i kapitlerne 3 og 4 på nogle opstillede optimeringsproblemer, som er hhv. lineære og non-lineære. Det lineære optimeringsproblem løses ved brug af simplex-metoden og det non-lineære ved brug af Lagranges multiplikatormetode. Afsnit 5.1 illustrerer anvendelsen af lineær programmering. Der opstilles et fiktivt optimeringsproblem vedr. husholdning, hvor det ønskes at imødegå det basale kostkrav under en minimering af de tilhørende udgifter. Afsnit 5.2 introducerer Markowitz-modellen og de idéer, der ligger til grund for denne. Der opstilles et fiktivt non-lineært optimeringsproblem, som løses vha. Lagranges multiplikatormetode. 85

Kapitel 5. Anvendelse 5.1 Kostoptimering Til at illustrere anvendelsen af simplex-metoden til løsning af lineære programmeringsproblemer opstilles et fiktivt husholdningsproblem for en studerende. Den studerende ønsker at få opfyldt sit daglige behov defineret ud fra udvalgte vitaminer og næringsstoffer, hvilket skal gøres billigst muligt. Dagligvarerne, som er udvalgt til at indgå som muligheder i dette daglige fødevareindtag, er begrænset, og priserne for disse er estimerede. Dette er dog stadig tilstrækkeligt nok til at illustrere anvendelsen af simplex-metoden på et virkelighedsnært problem. Det daglige behov (ses på tabel 5.1) er estimeret. Indholdet af vitaminer og næringstoffer i de udvalgte daligvarer er aflæst fra (11), og kan ses på tabel 5.2. Daglig behov af vitaminer og næringstoffer Protien 129,41 g Fedt 72,37 g Kuldhydrat 355,88 g D-vitamin 5 µg B 1 -vitamin 1,1 µg B 2 -vitamin 1,4 µg B 6 -vitamin 1,4 µg B 12 -vitamin 2,5 µg Tabel 5.1: Det daglig behov af de udvalgte vitaminer og næringstoffer. Produkt Protein Fedt Kulhydrat D-vitamin B 1 -vitamin B 2 -vitamin B 6 -vitamin B 12 -vitamin Pris Smør x 1 0,5 g 81,4 g 0,6 g 0,76 µg 0,007 µg 0,035 µg 0 µg 0,17 µg 6 kr. Margarine x 2 0,1 g 80,2 g 0,1 g 0 µg 0,007 µg 0,025 µg 0,003 µg 0 µg 5 kr. Oksekød x 3 19,3 g 16 g 0 g 0,6 µg 0,046 µg 0,155 µg 0,235 µg 1,9 µg 6 kr. Svinekød x 4 21,2 g 6,3 g 0 g 0,54 µg 0,789 µg 0,152 µg 0,330 µg 0,8 µg 5 kr. Ost x 5 12,4 g 6,3 g 1 g 0,411 µg 0,400 µg 0,500 µg 0,230 µg 1,23 µg 8 kr. Rugbrød x 6 5 g 1,2 g 47 g 0 µg 0,15 µg 0,066 µg 0,161 µg 0 µg 2 kr. Kartoffel x 7 1,8 g 0,3 g 17,2 g 0 µg 0 µg 0 µg 0 µg 0 µg 1 kr. Tabel 5.2: Indholdet af vitaminer og næringstoffer angivet pr. 100 g Bemærk at x 1 angiver mængden af smør i enheder af 100 g, hvilket vil sige, at hvis x 1 = 2, så er mængden af smør 200 g. Ligeledes angiver x 2 mængden af margarine i enheder af 100 g osv. 86

5.1. Kostoptimering Problemet kan formuleres som det lineære programmeringsproblem Minimer 6x 1 + 5x 2 + 6x 3 + 5x 4 + 8x 5 + 2x 6 + x 7 under bibetingelserne 0, 5x 1 + 0, 1x 2 + 19, 3x 3 + 21, 2x 4 + 12, 4x 5 + 5, 0x 6 + 1, 8x 7 129, 4 81, 4x 1 + 80, 2x 2 + 16, 0x 3 + 6, 3x 4 + 44, 1x 5 + 1, 2x 6 + 0, 3x 7 72.4 0, 6x 1 + 0, 1x 2 + x 5 + 47, 0x 6 + 17, 2x 7 355.9 0, 76x 1 + 0, 6x 3 + 0, 54x 4 + 0, 4x 5 5 0, 007x 1 + 0, 007x 2 + 0, 046x 3 + 0, 789x 4 + 0, 411x 5 + 0, 15x 6 1, 1 0, 035x 1 + 0, 025x 2 + 0, 155x 3 + 0, 152x 4 + 0, 500x 5 + 0, 066x 6 1, 4 0, 003x 2 + 0, 235x 3 + 0, 330x 4 + 0, 230x 5 + 0, 161x 6 1, 4 0, 17x 1 + 1, 9x 3 + 0, 8x 4 + 1, 23x 4 + 0, 161x 6 2, 5 og x 1, x 2, x 3, x 4, x 5, x 6, x 7 0, Løsning Problemet omformuleres til et lineært programmeringssproblem på kanonisk form. Derefter overføres det til Maple, hvor simplex-algoritmen bliver anvendt. I figur 5.1 ses det, hvordan Maple har løst dette maksimeringsproblem og givet de relevante resultater. Figur 5.1: Maple anvendt på problemet Ud fra dette resultat bestemmes den optimale løsning til objektfunktionen tilhørende det oprin- 87

Kapitel 5. Anvendelse delge lineære minimeringsproblem til 6 2, 821305927 + 5 5, 288532397 + 2 7, 536323754 = 58, 44314505. Dette resultat angiver det billigste, som den studerende kan leve for, hvor det daglig behov af vitaminer og næringsstoffer stadig er opfyldt; altså 58, 44 kr. dagligt. For at opnå denne minimering af omkostningen forbundet ved indtagelse af de udvalgte fødevarer skal den studerende indtage de mængder, som er angivet i tabel 5.3. Smør Svinekød Rugbrød 282,13 g 528,85 g 753,63 g Tabel 5.3: Mængden af fødevarer, der skal spises, for at dække det daglige behov af vitaminer og næringsstoffer Denne fødevareindtagelse i tabel 5.3 sammenlignes med det daglige behov, hvilket ses i tabel 5.4. Vitaminer og næringsstoffer Resultat Dagligt behov Protein 151,21 g 129,41 g Fedt 272,02 g 72,37 g Kuldhydrat 355,9 g 355,88 g D-vitamin 5 µg 5 µg B 1 -vitamin 5,32 µg 1,1 µg B 2 -vitamin 1,4 µg 1,4 µg B 6 -vitamin 2,96 µg 1,4 µg B 12 -vitamin 5,92 µg 2,5 µg Tabel 5.4: Sammenligning af vitaminer og næringsstoffer ved det fundne resultat og det daglige behov. Som forventet bliver det daglige behov opfyldt. Dog er der store variationer i opfyldelsen af disse behov. Ses der bort fra kulhydrat, D- og B 2 -vitamin, som lige præcis bliver opfyldt, så bliver de restende vitaminer og næringsstoffer rigeligt opfyldt. Især er det værd at bemærke opfyldelsen af fedt, som ligger langt over det daglige behov, og ensformigheden ved denne kost, hvorfor den ikke er anbefalelsesværdig for den studerende. Slack-variablene tilhørende dette problem bestemmes til y 1 = 0, y 2 = 0, y 3 = 0, 0343, y 4 = 7, 595, y 5 = 0, y 6 = 5, 911, y 7 = 0, y 8 = 0, som er fundet ved løsning af det duale problem i Maple (se figur 5.2). Her tilhører y 1 bibetingelsen for protein, y 2 bibetingelsen for fedt osv. Det ses altså, at den studerende hverken sparer eller tvinges til at bruge flere penge på mad, hvis det daglige behov for protein, fedt, B 1 -, B 6 - eller 88

5.1. Kostoptimering B 12 -vitamin ændres. Derimod ændres omkostningen, som den studerende skal bruge på mad, hvis det daglige behov for kulhydrat, D- eller B 2 -vitamin ændres. Hvis for eksempel det daglige behov for D-vitamin forøges fra 5 µg til 6 µg, øges omkostningen på mad med 7,60 kr. Figur 5.2: Slack-variable fundet i Maple. Simplex-metoden ses at give et matematisk brugbart resultat, mens det sundhedsmæssige aspekt ved den beregnede kostsammensætning ikke medtages. Derfor er det tvivlsomt, hvorvidt den beregnede kostsammensætning er brugbar i virkeligheden. En udvidelse heraf kunne være at opstille ekstra bibetingelser, hvor hver fødevare har en nedre grænse for at opnå en mere varieret kost. 89

Kapitel 5. Anvendelse 5.2 Porteføljeoptimering ved Markowitz-modellen Dette afsnit bygger på (21) kapitel 1, samt (17) side 155-156. Markowitz-modellen blev udarbejdet i 1952 af den amerikanske økonom Harry Markowitz. Modellen forsøger at optimere sammensætningen af en investors portefølje ved at minimere risikoen ud fra et afkastkriterie. Det antages i modellen, at et salg falder perioden efter købstidspunktet. Modellen bliver også benævnt middelværdi-varians-modellen, idet den bygger på de forventede gennemsnitlige afkast på investeringer og variansen af forskellige porteføljer. Da denne rapport ikke har til formål at vise matematisk forståelse af den statistik, som bruges til udledningen af nogle af de forskellige elementer, som indgår i modellen, vil den brugte terminologi, der anvendes, kun kort beskrives. Yderligere vil de statistiske tal, der er anvendt i eksemplerne, være givet uden nogen form for statistiske beregninger. I Markowitz-modellen indgår non-lineære funktioner, hvorfor netop denne model er et godt eksempel på en økonomisk problemstilling, hvor Lagranges multiplikatormetode bruges til at optimere denne. Der tages udgangspunkt i et investeringsproblem, hvor aktiehandel er den eneste investeringsmulighed. Problemstillingen er derfor, hvorledes der opnås en effektiv sammensætning af aktier i en given portefølje. Givet et aktiemarked med n aktier. Lad x være en n-dimensionel vektor, hvor elementet x i x beskriver en ikke-negativ beholdning af aktie i gennem en given periode. Generelt gælder det, at x i 0, medmindre shortselling medtages. Shortselling er, når en investor sælger aktier, denne har lånt for et gebyr, med hensigt på at opkøbe dem igen til en lavere pris. I sådan et scenarie er x i < 0. Den klassiske Markowitz-model er givet ved, at der eksisterer et endeligt antal risikable investeringsmuligheder og ingen risikofrie. Ved kun at se på et aktiemarked, undlades de relativt risikofrie investeringsmuligheder (f.eks. banker og obligationer). Derudover ses bort fra transaktionsomkostninger. Muligheden for, at shortselling kan finde sted, undlades, og desuden antages det, at hele formuen ønskes investeres. Formuen, W, er da givet ved i T x = W, hvor i T angiver vektoren, som udelukkende er bestående af et-taller. Fremtidige kursændringer antages værende stokastiske, og derfor er p R n en tilfældig vektor, hvor hvert element har en given middelværdi, og en kovarians-matrix, Σ(p). Afkastet er derved givet ved en tilfældig skalar, a, bestemt ud fra en portefølje, x, med middelværdi µ T x og en varians på x T Σ(p)x. Denne middelværdi er bestemt ud fra den stokastiske model, der beskriver de variationer, der kan være i prisudviklingen. Kovarians-matricen er således bestemt ud fra enhver akties variation i prisændringerne i forhold til denne middelværdi; både i henhold til sig 90

5.2. Porteføljeoptimering ved Markowitz-modellen selv og resten af markedet. Modellen kan derved beskrives ved det non-lineære programmeringsproblem Minimer x T Σ(p)x under bibetingelserne p T x a min W i T x = W. Altså skal objektfunktionen, som beskriver variationerne i prisændringerne, minimeres og samtidig opfylde de givne afkast- og budgetkrav. Argumentet for at minimere sin portefølje i forhold til variansen af dennes afkast er, at en højere varians kan føre til store økonomiske afkast, men ligeledes store tab, og derfor vil investoren opleve en større risiko. Ved denne form for minimering opnås en større sikkerhed ud fra den givne afkastbibetingelse. Den sidste bibetingelse, der er nævnt, er budgetbegrænsningen, idet det er antaget, at der ikke kan lånes, når der skal opkøbes aktier. I underafsnit 5.2.0.1 gennemgås et eksempel på et sådant investeringsproblem med Lagranges multiplikatormetode og ikke ved Kuhn-Tucker. Den store forskel på disse metoder er i denne sammenhæng, at afkastkravet altid lige præcis vil være opfyldt (hvis der findes en løsning) ved Lagranges multiplikatormetode, mens der ved Kuhn-Tucker teoretisk set kan opnås et større afkast, hvor risikoen samtidig er minimeret. Imidlertid vil løsningerne fundet ved Lagranges multiplikatormetode og Kuhn-Tucker altid være de samme, grundet opbygningen af Markowitz-modellen; et højere afkastkrav fører til en højere risiko. Derfor benyttes Lagranges multiplikatormetode. 5.2.0.1 Optimering vha. Lagranges multiplikatormetode En fiktiv investor ønsker at sammensætte en portefølje af to fiktive aktier. Aktierne er givet ved følgende kovarians-matrix Σ(p), samt følgende p vektor 747, 9 Σ( p) = 7, 9 9, 15 p =. 7, 9 0, 5 1, 94 Investor ønsker at investere W=10000. Derved kan betingelserne for Markowitz-modellen opstilles som x T Σ( p)x =747, 9x 2 1 + 0, 5x 2 2 15, 8x 1 x 2, p T x =9, 15x 1 + 1, 94x 2 = a10000, i T x =x 1 + x 2 = 10000. 91

Kapitel 5. Anvendelse Dette giver følgende programmeringsproblem Minimer 747, 9x 2 1 + 0, 5x 2 2 15, 8x 1 x 2 under bibetingelserne 9, 15x 1 + 1, 94x 2 = a10000 x 1 + x 2 = 10000. Investor ønsker en redegørelse af, hvorledes sin portefølje skal sammensættes ved fire forskellige afkastkrav opgivet i procent Løsning a = 5, a = 1, 94, a = 9, 15, a = 10. Generelt for de fire afkastkravsscenarier gælder, at porteføljesammensætningen bestemmes vha. sætning (4.3.6). Derfor opskrives Lagrange-funktionen L(x 1, x 2, λ 1, λ 2 ), hvor bibetingelserne er omskrevet til 9, 15x 1 + 1, 94x 2 a10000 = 0 og x 1 + x 2 10000 = 0. L(x 1, x 2, λ 1, λ 2 ) =747, 9x 2 1 + 0, 5x 2 2 15, 8x 1 x 2 + λ 1 (9, 15x 1 + 1, 94x 2 a10000)+ λ 2 (x 1 + x 2 10000). De kritiske punkter for L er da bestemt ved L x 1 = 1495, 8x 1 15, 8x 2 + 9, 15λ 1 + λ 2 = 0, (5.1) L x 2 = x 2 15, 8x 1 + 1, 94λ 1 + λ 2 = 0, (5.2) L λ 1 = 9, 15x 1 + 1, 94x 2 a10000 = 0, (5.3) L λ 2 = x 1 + x 2 10000 = 0. (5.4) Porteføljesammensætningen i det første scenarie, hvor afkastkravet, a, er fem procent, beregnes. Sammenhængen mellem x 1 og x 2 fås fra (5.4) til L λ 2 =0 = x 1 + x 2 10000, (5.5) x 1 = 10000 x 2. (5.6) 92

5.2. Porteføljeoptimering ved Markowitz-modellen Ud fra (5.3) og (5.6) bestemmes x 2 til Så beregnes x 1 ud fra (5.6). x 1 = 10000 5755, 89 = 4244, 11. 0 = 91500 9, 15x 2 + 1, 94x 2 50000, x 2 = 41500 7, 21 = 5755, 89. Ved et afkastkrav på 5 procent er den optimale sammensætning af porteføljen dermed (4244, 11; 5755, 89). λ-værdierne angiver jf. sætning 4.3.9 ændringen i risikoen ved hhv. en ændring i afkastkravet og formuen. En yderligere beregning og fortolkning af λ-værdierne gives ikke, grundet det manglende statistiske grundlag, der ligger bag de anvendte værdier for objektfunktionens koefficienter. Porteføljesammensætningen i det andet scenarie, hvor afkastkravet er 1,94 procent, bestemmes. Ud fra (5.1) og (5.6) bestemmes x 2 til 0 = 91500 9, 15x 2 + 1, 94x 2 19400, x 2 = 72100 7, 21 = 10000. Dermed er x 1 = 10000. Ved et afkastkrav på 1,94 procent er den optimale sammensætning af porteføljen dermed (0; 10000). Bemærk at porteføljen kun består af de mindst risikofyldte aktier, x 2, idet at de opfylder afkastkravet. Portefølgesammensætningen i det tredje scenarie, hvor afkastkravet er 9, 15 procent, bestemmes. Ud fra (5.3) og (5.6) bestemmes x 2 til Dermed er x 2 0 = 91500 9, 15x 2 + 1, 94x 2 91500, x 2 = 0 7, 21 = 0. = 10000. Den optimale sammensætning af porteføljen x er i dette tilfælde (10000; 0). Da afkastkravet på 9,15 procent skal opfyldes, bliver investor i dette tilfælde derfor nødt til udelukkende at investere i de mest risikable aktier. Portefølgesammensætningen i det sidste scenarie, hvor afkastkravet givet ved 10 procent, be- 93

Kapitel 5. Anvendelse stemmes. Ud fra (5.3) og (5.6) bestemmes x 2 til Så beregnes x 1 ud fra (5.6). 0 = 91500 9, 15x 2 + 1, 94x 2 100000, x 2 = 8500 7, 21 x 1 = 10000 ( 1178, 92) = 11178, 92. = 1178, 92. Med andre ord er den optimale sammensætning af porteføljen x i dette tilfælde (11178, 92; 1178, 92). Denne sammensætning er i modstrid med betingelsen om, at shortselling ikke er en mulighed; derved skal alle aktiebeholdninger være ikke-negative. Derfor er det ikke muligt for Markowitzmodellen at finde en optimal sammensætning, som har et større afkastkrav end den højeste variation, der er i prisudviklingen for en given aktie. Det bemærkes, at selv hvis det ikke er muligt at finde en sammensætning af porteføljen, der opfylder afkastkravet, så kan det sagtens ske, at afkastkravet bliver opfyldt alligevel ved en given porteføljesammensætning, idet vektoren, p, kun er et estimat. Af samme argument gælder det ikke nødvendigvis, at en sammensætning opfylder afkastkravet. To virkelighedsnære problemer er opstillet for at skildre metoderne simplex og Lagrange til hhv. lineær og non-lineær programmering. Disse problemer kan behandles mere dybdegående, men relevansen herfor er lille, da formålet med rapporten er at skildre anvendelsen af de udvalgte matematiske metoder vedrørende optimering. 94

Kapitel 6. Sammenfatning kapitel 6 SAMMENFATNING Denne rapport har som hovedformål at præsentere relevante matematiske metoder til optimering, samt teorien, der danner grundlag for disse metoder. Matematisk optimering omhandler mange typer af funktioner, hvorfor der i denne rapport udelukkende betragtes kontinurte funktioner. Ekstremværdisætningen giver eksistensen af endelige maksima, der er lig med supremum, og endelige minima, der er lig med infimum, for en kontinuert funktion, der er defineret på en kompakt mængde. Ekstremværdisætningen giver i lineær programmeringssammenhæng, at maksima og minima eksisterer og er endelige, når den brugbare mængde er kompakt, og objektfunktionen er kontinuert. Disse ekstrema ligger på randen af denne brugbare mængde, og en konsekvens heraf er, at et ekstrema altid ligger i et hjørnepunkt. Denne forudsætning ligger til grundlag for simplexalgoritmen, der systematisk gennemgår hjørnepunkter, indtil optimum er fundet. Indenfor non-lineær optimering er differentiabilitet og Hessematricen centrale værktøjer til ekstremumsbestemmelse, som består af to sider; at finde ekstrema og at klassificere disse. Under antagelse af at den funktion, som ønskes optimeret, er kontinuert og differentiabel på definitionsmængden, er det blot nødvendigt at undersøge de punkter, hvor gradienten er lig med nul, og endepunkterne. Hvis der er nogle punkter, hvori funktionen ikke er differentiabel, er det også nødvendigt med en udersøgelse af disse. Ekstremaklassificeringen kan simplificeres ved at betragte et specialtilfælde af kontinuerte funktioner kaldet konvekse funktioner. At finde ekstremalpunkter svarer til at løse ligningssystemet, der fremkommer, når de partielt afledte sættes lig med nul. Dette kan ikke altid løses eksakt, hvilket giver anledning til at introducere ekstremaaproksimationsmetoden Newton. Lagranges multiplikatormetode er én måde at løse non-lineære programmeringsproblemer; denne metode finder altid en optimal løsning i randen af den mængden, den afbildeder ind i. Dette giver anledning til at præsenterer Kuhn-Tucker betingelserne, der er en udvidelse af Lagranges multiplikatormetode, hvori det er muligt at finde ekstrema i det indre af mængden, der afbildedes ind i. 95

Kapitel 6. Sammenfatning Fælles for lineær og non-lineær optimering er at udnytte de kriterier, som gør, at det ikke er nødvendigt at tjekke samtlige punkter for værende ekstremalpunkter. 96

Kapitel A. De reelle tal bilag a DE REELLE TAL Dette afsnit bygger på (4) I denne rapport tages udgangspunkt i de reelle tal. Disse danner grundlag for beregningerne, der foretages. Beviserne kan ledes tilbage til aksiomerne, som præsenteres herunder. Eksistensen af de reelle tal tages for givet, og regnearterne addition og multiplikation antages gældende. Hvis andet ikke er angivet, gælder aksiomerne for alle x, y, z R. Addition og multiplikation (+ og ) opfylder følgende aksiomer (de algebraiske aksiomer): Aksiom 1 x + y = y + x og x y = y x (de kommutative love). Aksiom 2 x + (y + z) = (x + y) + z og x (y z) = (x y) z (de associative love). Aksiom 3 x (y + z) = x y + x z (den distributive lov). Aksiom 4 Givet x og y findes et z, så x + z = y. z skrives som y x, x x skrives som 0, og 0 x skrives som x. Aksiom 5 Givet x og y, hvor x 0, findes et z, så x z = y. z skrives som y x, x x skrives som 1, og 1 x skrives som x 1. Det antages yderligere, at der findes en ordning. En ordning opfylder følgende aksiomer (ordningsaksiomerne): Aksiom 6 Præcis én af relationerne, x = y, x < y, x > y, er sand. Aksiom 7 Hvis x < y, så vil x + z < y + z. Aksiom 8 Hvis x > 0, og y > 0, så vil x y > 0. Aksiom 9 Hvis x > y, og y > z, så vil x > z. Det sidste aksiom, der gives, er komplethedsaksiomet. Før dette introduceres en opadtil begrænset mængde i definition A.0.1. Definition A.0.1. Lad E R være ikke-tom. 97

Kapitel A. De reelle tal Mængden E siges at være opadtil begrænset, hvis og kun hvis der er et M R, så at a M for alle a E; M kaldes en øvre grænse af E. Et tal s kaldes et supremum af E, hvis og kun hvis s er en øvre grænse af E og s M for alle øvre grænser M af E. Aksiom 10 Hvis E er en ikke-tom og opadtil begrænset delmængde af R, så har E et endeligt supremum. Sætning A.0.2 angiver, at supremum til en mængde er lig med negationen af infimum til mængdens reflektion. Sætning A.0.2. Lad A R være ikke-tom. Betragt B = A := { x x A}. (a) A har et infimum, hvis og kun hvis B har et supremum; er dette tilfældet, gælder det, at sup B = inf A. (A.1) (b) A har et supremum, hvis og kun hvis B har et infimum; er dette tilfældet, gælder det, at inf B = sup A. (A.2) Bevis. Bevisene for (a) og (b) er analoge. Her gives beviset for (a). Antag at A har et infimum. Det vises, at inf A er en øvre grænse for B, ved at vise, at x inf A, for alle x B. Da B = {x x A}, må det gælde, at x inf A, hvilket er ensbetydende med, at x inf A. Det vises, at inf A er den mindste øvre grænse for B, ved at vise, at der for alle ε > 0 eksisterer et x ε B således, at inf A ε < x ε. Da B = {x x A}, må det gælde, at inf A + ε > x ε, hvilket er ensbetydende med, at inf A ε < x ε. Antag at B har et supremum. Det vises, at sup B er en nedre grænse for A, ved at vise, at x sup B, for alle x A. Da A = {x x B}, må det gælde, at x sup B, hvilket er ensbetydende med, at x sup B. Det vises, at sup B er den største nedre grænse for A, ved at vise, at der for alle ε > 0 eksisterer et x ε A således, at sup B +ε > x ε. Da A = {x x B}, må det gælde, at sup B ε < x ε, hvilket er ensbetydende med, at sup B + ε > x ε. 98

Kapitel B. Lineær Algebra bilag b LINEÆR ALGEBRA De udvalgte resultater indenfor lineær algebra, som bruges løbende gennem rapporten, gives i dette bilag. Sætning B.0.3 giver nogle egenskaber for determinanter. Sætning B.0.3. Lad A være en n n matrix. Følgende udsagn er sande: Hvis B er en matrix opnået ved ombytning af to rækker i A, så er detb = deta. Hvis B er en matrix opnået ved at multiplicerer hver indgang af en række i A med en skalar k, så er detb = k deta. Hvis B er en matrix opnået ved at addere et multiplum af en række i A til en anden række i A, så er detb =deta. deta T =deta. A er invertibel, hvis og kun hvis deta 0. Definitionen af indre produkt på et endeligt-dimensionalt komplekst vektorrum er givet i definition B.0.4. Definition B.0.4. Indre produkt på V er en afbildning. <, >: V V F (u, v) < u, v > med følgende fire egenskaber. 1. Linearitet i første komponent: < u + v, w >=< u, w > + < v, w > og < au, v >= a < u, v > for alle u, v, w V og a F, 2. Positivitet: < v, v > 0 for alle v V, 3. Positivt definit: < v, v >= 0 hvis og kun hvis v = 0, 4. konjugeret symmetri: < u, v >=< v, u > for alle u, v V Cauchy-Schwartz ulighed gives i sætning B.0.5. 99

Kapitel B. Lineær Algebra Sætning B.0.5. Cauchy-Schwartz ulighed Hvis x, y R n, så gælder det, at x y x y. For bevis se (22) side 273-274. Definitionen på et ortogonal og ortonormal basis er givet i definition B.0.6. Definition B.0.6. Lad V være et vektorrum med indre produkt. En liste af ikke-nulvektorer (e 1,, e m ) er ortogonale hvis < e i, e j >= 0 for alle 1 i j m. Listen (e 1,, e m ) er ortonormal hvis, < e i, e j >= δ i,j, for alle i, j = 1,, m. Hvor δ i,j = 1 hvis i = j og δ i,j = 0 hvis i j. Definitionen på adjungerede og selvadjungerede operatorer er givet i definition B.0.7. Definition B.0.7. Givet T L(V ), så er den adjungerede af T den lineære afbildning T L(V ), hvorom det gælder, at < T v, w >=< v, T w > for alle v, w V. Ydermere siges T, at være selvadjungeret hvis T = T. Sætning B.0.8 giver hvorledes en vektor tilhørende et vektorrum, kan repræsenteres ved en ortonormal basis tilhørende dette vektorrum. Sætning B.0.8. Lad (e 1,, e n ) være en ortonormal basis for V. For alle v V gælder det, at og, at v 2 = n k=1 v =< v, e 1 > e 1 + + < v, e n > e n < v, e k > 2. For bevis se (14) side 125-126. Spektralsætningen er givet i sætning B.0.9. Sætning B.0.9. Spektralsætningen Lad V være et endeligt-dimensionalt vektorrum med indre produkt i C og T L(V ). T er selvadjungeret, hvis og kun hvis der eksisterer en ortonormal basis for V bestående af egenvektorer for T. Alle egenværdierne er reelle. For bevis se (14) side 148-149. 100

B.1. Symmetriske matricer B.1 Symmetriske matricer Sætning B.1.1 gør sig gældende for en symmetrisk matrix. Sætning B.1.1. En symmetrisk n n matrix, A, kan diagonaliseres, og der eksisterer en ortonormal basis, P, til A, (y 1, y 2,, y n ), bestående af A s egenvektorer. For bevis se (15) side 425-426. Det bemærkes, at Ay i = λ i y i, (B.1) hvor λ i er egenværdien til egenvektoren y i. Den diagonale matrix, D, og den ortonormale matrix bestående af A s egenvektorer, P, betragtes: Det ses ud fra (B.1), at λ 1 0 0. 0 λ.. D = 2...... og P =.. 0 λ n [y 1 y 2 y n ]. AP = P D, hvilket er ensbetydende med, at A = P DP 1 = P DP T. B.2 Basisskift Sætning B.2.1 introducerer basisskift. Sætning B.2.1. Lad B være basis for R n og B være matricen, hvis søjler er vektorerne i B. B er da invertibel og for enhver vektor v i R n, gælder det, at B[v] B = v, hvilket er ensbetydende med [v] B = B 1 v. For bevis se (15) side 267. 101

Kapitel B. Lineær Algebra Eksemplet på den kvadratiske form præsenteret i afsnit 4.2.3.2 reevalueres med som jf. sætning B.2.1 opfylder [x] P = P T x. [x] P = q 1 q 2 q 3, f(x 1, x 2, x 3 ) =x T Ax =x T P DP T x =(P T x) T DP T x =[x] T PD[x] P =λ 1 q1 2 + λ 2 q2 2 + λ 3 q3. 2 Den kvadratiske form er nu diagonaliseret og de blandede led er forsvundet ved et koordinatskifte. 102

Kapitel C. Hjælpesætninger bilag c HJÆLPESÆTNINGER Disse sætninger benyttes løbende i rapporten til at bevise væsentlige resultater. For at kunne præsentere Taylors formel i R n defineres den fuldstændigt afledte af en funktion i definition C.0.2. Definition C.0.2. Lad p 1, lad V være åben i R n, lad a V og lad f : V R. Så er den p te ordens fuldstændigt afledte af f på a givet ved n n n f (p) (a, h) := D i1,i 2,,i p f(a) h i1 h i2 h ip i 1=1 i 2=1 i p=1 hvis og kun hvis den (p 1) te afledede af f eksisterer på V og er differentiabel på a. Taylors formel i R n er givet i sætning C.0.3. I sætningen anvendes notationen [x, a], hvilket angiver et linjestykke fra x til a; definitionen herfor gives i definition 4.2.30. Sætning C.0.3. Lad p N. Lad V være åben i R n, og x, a V. Antag at f : V R. Hvis f er C p på V og [x, a] V, så eksisterer et punkt c [x, a] således, at p 1 1 f(x) = f(a) + k! D(k) f(a, h) + 1 p! D(p) f(c, h) k=1 for h := x a med omdrejningspunkt i a. for bevis se (22) side 421. Sætning C.0.4 giver implicit funktion sætningen. Sætning C.0.4. Implicit funktion sætningen Antag at V er åben i R n+p og F = (F 1, F 2, F n ) : V R n er en kontinuert differentiabel på V. Antag ydermere F(x 0, t 0 ) = 0 for et (x 0, t 0 ) V, hvor x 0 R n og t 0 R p. Hvis (f 1,f 2,,f n) (x 1,x 2,,x n) (x 0, t 0 ) 0, så findes en åben mængde W R p, hvor t 0 W og en entydig kontinuert differentiabel funktion g : W R n, så g(t 0 ) = x 0 og F(g(t), t) = 0 for alle t W. For bevis se (22) side 430-432. Sætning C.0.5 giver vektorkædereglen i flere variable. 103

Kapitel C. Hjælpesætninger Sætning C.0.5. Vektorkædereglen i flere variable Lad f være en funktion, hvor variablene, f(x 1, x 2,, x m ), x i = x i (t 1, t 2,, t n ), i = 1, m. Antag at f har kontinuert partielle afledte af første orden, og at x i (t), i = 1, m er kontinuert differentiable; så er funktionen f = f(t i ), 1 i n, differentiabel og har differentialkvotienten df = f dx 1 + f dx 2 + + f dx m, 1 i n, dt i x 1 dt i x 2 dt i x m dt i = f x (t i ), 1 i n. Sætning C.0.6 giver at bevares under grænsedannelse. Sætning C.0.6. Antag at {x n } og {y n } er konvergente følger. Hvis der eksisterer et N 0 N således, at så Sætning C.0.7 giver Rolles sætning. Sætning C.0.7. (Rolles sætning) x n y n for n N 0, lim x n lim y n. n n Antag, at a, b R med a < b. Hvis f er kontinuert på [a, b], differentiabel på (a, b), og f(a) = f(b), så er f (c) = 0 for mindst ét c (a, b). Bevis. Det vides fra ekstremværdisætningen, sætning 2.4.6, at f har et endeligt maksimum M og et endeligt minimum m på [a, b]. 1. Hvis M = m er f konstant på (a, b) og f (x) = 0 for alle x (a, b). 2. Antag M m. Siden f(a) = f(b), må f antage en af værdierne M eller m i punktet c (a, b). Antag f(c) = M. Da M er maksimum af f på [a,b], er f(c + h) f(c) 0 104

Kapitel C. Hjælpesætninger for alle h, som opfylder c + h (a, b). Tilfældet h > 0 medfører, og tilfældet h < 0 medfører, f f(c + h) f(c) (c) = lim 0, h 0+ h f f(c + h) f(c) (c) = lim 0. h 0 h Det medfører, at f (c) = 0. Sætning C.0.8 giver den generelle middelværdisætning og middelværdisætningen Sætning C.0.8. Antag, at a, b R med a < b. i) Generaliseret middelværdisætning Hvis f, g er kontinuert på [a, b] og differentiabel på (a, b), så eksisterer et c (a, b), sådan at g (c)(f(b) f(a)) = f (c)(g(b) g(a)). ii) Middelværdisætning Hvis f er kontinuert på [a, b] og differentiabel på (a, b), så eksisterer et c (a, b), sådan at f(b) f(a) = f (c)(b a). Bevis. i) Sæt hjælpefunktionen h(x) = f(x)(g(b) g(a)) g(x)(f(b) f(a)). Når h (x) = f (x)(g(b) g(a)) g (x)(f(b) f(a)), ses det, at h er kontinuert på [a, b], differentiabel på (a, b), og h(a) = h(b). Vha. Rolles sætning (C.0.7) fås h (c) = 0 for mindst ét c (a, b), hvis h(a) = h(b) er opfyldt. h(a) = f(a)(g(b) g(a)) g(a)(f(b) f(a)) = f(a)g(b) g(a)f(b) h(b) = f(b)(g(b) g(a)) g(b)(f(b) f(a)) = f(b)g(a) + g(b)f(a). 105

Kapitel C. Hjælpesætninger Dette giver, at h(a) = h(b). Derved er h (c) = 0, hvilket medfører f (c)(g(b) g(a)) g (c)(f(b) f(a)) = 0 g (c)(f(b) f(a)) = f (c)(g(b) g(a)). ii) Sæt g(x) = x og indsæt det i h(x). Derved bliver h(x) = f(x)(b a) x(f(b) f(a)). Når h (x) = f (x)(b a) (f(b) f(a)), ses det, at h er kontinuert på [a, b], differentiabel på (a, b) og h(a) = h(b). Vha. Rolles sætning (C.0.7) eksisterer der mindst ét c (a, b), således at h (c) = 0, f (c)(b a) (f(b) f(a)) = 0, f(b) f(a) = f (c)(b a). 106

Litteratur LITTERATUR [1] Proof of strong duality, complementary slackness and marginal values. Last checked 05/12-2012. URL http://www.math.ubc.ca/~anstee/math340/340strongduality.pdf. 34 [2] Sylvesters kriterium. Last checked 05/12-2012. URL http://en.wikipedia.org/wiki/ Sylvester s_criterion. 52 [3] URL http://en.wikipedia.org/wiki/mathematical_optimization. 7 [4] Axioms for the real numbers. Last cheked 13/10-2012, 2012. URL http://www-history. mcs.st-and.ac.uk/~john/analysis/lectures/l5.html. 97 [5] Newtons method. Last cheked 13/10-2012, 2012. URL http://www.en.wikipedia.org/ wiki/newtons_method. 65 [6] Robert A. Adams and Christopher Essex. Calculus, A complete course, volume 973. Pearson Canada, 7th edition, 2010. ISBN 978-0-321-54928-0. 44, 45 [7] Horia Cornean. Notes for analyse 1 and analyse 2. pages 2 9, 2012. 9, 17 [8] Horia Cornean. On the local extrema for functions of several vaiables. November 2012. 47 [9] G. B. Dantzing. Inductive proof of the simplex methood. IBM Journal of Research and Development, 4, issue 5:505 506, 1960. URL http://dl.acm.org/citation.cfm?id= 1661220&CFID=153038260&CFTOKEN=82689253. Last ckecked 05/12-2012. 28 [10] C. Henry Edwards and David E. Penney. Calculus, early transcendentals. Harlow: Prentice Hall, seventh edition, 2008. 70 [11] DTU Foedevareinstituttet. Foedevaredatabanken. Last checked 05/12-2012. URL http: //www.foodcomp.dk/v7/fvdb_search.asp. 86 [12] Michel X. Goemans. Linear programming. Advanced Algorithms, pages 30 70, 1994. URL http://www.cse.yorku.ca/~andy/courses/4101/lecture-notes/ Goemans-MIT-94.pdf. Last cheked 07/11-2012. 22 107

Litteratur [13] Peter Ireland. The kuhn-tucker and envelope theorems. Boston College, Department of Economics, pages 16 19, 2012. 82 [14] Anne Schilling Isaiah Lankham, Bruno Nachtergaele. Linear Algebra, As an Introduction to Abstract Mathematics. University of California, Davis, written Fall 2007, last updated October 9, 2011. 100 [15] Arnold J. Insel og Stephen H. Friedberg Lawrence E. Spence. Elementary Linear Algebra. Pearson Education International, 2. edition, 2008. 101 [16] David C. Lay. Linear Algebra and Its Applications third edition chapter 9. Pearson Addison- Wesley, 2006. 21 [17] Stephen Boyd og Lieven Vandenberghe. Convex Optimization. Cambridge University Press, New York, 2009. 22, 90 [18] Ralph Tyrell Rockafellar. Convex Analysis. Princeton University Press, 1996. 55, 63 [19] Carl P. Simon and Lawrence Blume. Mathematics for Economists. Norton & company, 1994. 79 [20] Jan A. Snyman. Practical Mathematical Optimization. University of Pretoria, Pretoria, South Africa, 2005. 55, 64 [21] Paolo Vanini and Luigi Vignola. Markowitz model. URL http://www.math.ethz.ch/ finance/misc/portfolioselection/markowitz.pdf. Last cheked 12/11-2012. 90 [22] William R. Wade. An Introduction to Analysis. Pearson Education International, 4. edition, 2010. 9, 11, 15, 40, 55, 59, 70, 100, 103 [23] Brian Wallace. Constrained optimization: Kuhn-tucker conditions. pages 1 3, 2004. URL https://cv2.sim.ucm.es/moodle/file.php/20636/kuhn-tucker.pdf. Last cheked 12/11-2012. 81 [24] C. Wilson. Concavity and sufficiency of the kuhn-tucker conditions. New York University, Department of Economics, 2012. 82 108