Mat H 1 2004/05 Note 2 10/11-04 Gerd Grubb Nødvendige og tilstrækkelige betingelser for ekstremum, konkave og konvekse funktioner. Fremstillingen i Kapitel 13.1 2 af Sydsæters bog [MA1] suppleres her med en sammenskrivning af argumenter, der findes rundt omkring i bøgerne [MA1 2]. Grundidéen er at vise de todimensionale sætninger ud fra kendskabet til lignende problemstillinger for funktioner af én variabel. 1. En nødvendig betingelse. Når f(x, y) er defineret for (x, y) i en delmængde D af R 2, sige vi, at f har maksimum i (x 0, y 0 ) (eller at (x 0, y 0 ) er et maksimumspunkt for f), når (1) f(x 0, y 0 ) f(x, y) for ethvert (x, y) D. Minimum defineres tilsvarende, med uligheden vendt om: (2) f(x 0, y 0 ) f(x, y) for ethvert (x, y) D. Det er oplagt, at f(x, y) har maksimum i (x 0, y 0 ) hvis og kun hvis funktionen f(x, y) har minimum i (x 0, y 0 ); derfor, hver gang vi viser en sætning om maksimum, er der en tilsvarende sætning om minimum. I det følgende vil vi primært se på maksimum. Vi viser først en nødvendig betingelse for maksimum. Man kalder (x 0, y 0 ) et indre punkt i D, når der findes en radius r > 0, så at punkterne indeni cirklen B((x 0, y 0 ), r) med centrum (x 0, y 0 ) og radius r alle er med i D: (3) B((x 0, y 0 ), r) = { (x, y) (x x 0 ) 2 + (y y 0 ) 2 < r 2 } D. Sætning 1. Antag, at f har første-ordens partielle afledede på D, og lad (x 0, y 0 ) være et indre punkt i D. Hvis f har maksimum eller minimum i (x 0, y 0 ), så er (4) f 1 (x 0, y 0 ) = f 2 (x 0, y 0 ) = 0. Bevis. Vi ved, for en funktion g(t) af én variabel, defineret og differentiabel på et interval I, at hvis g har ekstremum i et indre punkt t 0 af I, så er g (t 0 ) = 0. (Se evt. [MA1, Sætning 9.1.1].) At t 0 er indre i I vil sige, at der findes et åbent interval omkring t 0, som er indeholdt i I. Den partielle afledede af f med hensyn til x i punktet (x 0, y 0 ) er jo differentialkvotienten af g(x) = f(x, y 0 ) i x 0. Om g gælder dels, at g er defineret for x ]x 0 r, x 0 + r[ med r som i teksten ovenfor, dels at g(x 0 ) = f(x 0, y 0 ) f(x, y 0 ) = g(x) 1
2 for alle x ]x 0 r, x 0 + r[, så g (x 0 ) = 0 ifølge sætningen for funktioner af én variabel. Men så er f 1 (x 0, y 0 ) = g (x 0 ) = 0. Der er et tilsvarende bevis for den partielle afledede med hensyn til y. Minimumspunkter behandles på lignende måde. Punkter, hvor (4) gælder, kaldes stationære punkter (for f). Et maksimums- eller minimums-punkt kaldes med en fælles betegnelse et ekstremumspunkt eller bare et ekstremum. Så kan sætningen udtrykkes med andre ord således: Hvis f har ekstremum i det indre punkt (x 0, y 0 ), så er det et stationært punkt for f. Vi bemærker, at betingelsen (4) på ingen måde er tilstrækkelig til at sikre at der er maksimum i (x 0, y 0 ). Dels kan vi ikke se af denne betingelse, om der skulle være maksimum eller minimum; dels kan der ske noget helt tredje, hverken maksimum eller minimum, på forskellige måder. Det har stor interesse at afgrænse nogle egenskaber, hvoraf man sikkert kan slutte at der er maksimum. Vi finder nogle sådanne i det følgende. 2. En tilstrækkelig betingelse for maksimum. Man har her en sætning for funktioner af én variabel, som vi vil benytte som hjælpesætning. Vi definerer først konkave og konvekse funktioner, som i [MA1, 5.9.(3)]: Definition 1. Lad f(x) være to gange differentiabel på et interval I. 1 f(x) kaldes konkav på I, når f (x) 0 i alle punkter af I. 2 f(x) kaldes konveks på I, når f (x) 0 i alle punkter af I. Man kan definere konkavitet og konveksitet for funktioner, som ikke er givet at være to gange differentiable, på en mere geometrisk måde, se [MA1, 9.8.(2)]. I Afsnit 4 nedenfor redegøres for hvorfor de to beskrivelser, og endnu en tredje for én gang differentiable funktioner, stemmer overens (det bevises ikke i [MA1 2], men bruges i [MA2, Sætning 4.5.1]). For funktioner af én variabel har vi en tilstrækkelig betingelse for maksimum, som vil blive brugt som hjælpesætning her (det er [MA1, Sætning 9.2.1]): Hjælpesætning 1. Hvis g(t) er en to gange differentiabel funktion på et interval I, som er konkav på I, og t 0 er et indre punkt af I hvor g (t 0 ) = 0, så har g maksimum i t 0. Bevis. Da g (t) 0 for alle t, er g (t) aftagende på I. Værdien g (t 0 ) er jo 0, derfor må g (t) 0 for t t 0 og g (t) 0 for t t 0. Heraf kan vi slutte, at g(t) er voksende for t t 0 og aftagende for t t 0. Men så er g(t) størst i t 0. Nu vil vi se på funktioner af to variable. En mængde D i R 2 siges at være konveks, når der for hvert par af punkter (x 1, y 1 ) og (x 2, y 2 ) i D gælder, at liniestykket imellem dem er indeholdt i D. Da punkterne på liniestykket mellem (x 1, y 1 ) og (x 2, y 2 ) kan fremstilles som (x, y) = (x 1, y 1 ) + t((x 2, y 2 ) (x 1, y 1 )) = (1 t)(x 1, y 1 ) + t(x 2, y 2 ) for t [0, 1], kræves altså, at (5) { (x, y) (x, y) = (1 t)(x 1, y 1 ) + t(x 2, y 2 ), t [0, 1] } D, når (x 1, y 1 ) og (x 2, y 2 ) D. For at kunne definere de partielle afledede antager vi, at D har indre punkter; vi siger så, at f er C 2 på D, når de partielle afledede af til og med anden orden (altså f, f 1, f 2, f 11, f 12, f 21 og f 22 ), er kontinuerte på D.
(Mere pedantisk udtrykt: Vi antager, at der for hver af disse funktioner, beregnet i de indre punkter af D, findes kontinuerte funktioner på D, som stemmer overens med dem på hele D; de gives samme betegnelse.) Specielt er f 12 = f 21. For C 2 -funktioner definerer man konkavitet eller konveksitet således: Definition 2. Lad D være konveks i R 2 og have indre punkter, og lad f(x, y) være C 2 på D. 1 f(x, y) kaldes konkav på D, når følgende uligheder gælder for alle punkter i D: (6) f 11 0, f 22 0, f 11f 22 (f 12) 2 0. 2 f(x, y) kaldes konveks på D, når følgende uligheder gælder for alle punkter i D: (7) f 11 0, f 22 0, f 11f 22 (f 12) 2 0. Bemærk, at determinanten for Hesse-matricen indgår. Vi skal senere (i [MA2, Kap. 4]) møde en generalisation til flere variable, som formuleres direkte ved egenskaber for Hesse-matricen. Bemærk også, at der gælder (8) f er konkav på D f er konveks på D. For funktioner, som ikke er givet at være to gange differentiable, defineres konkavitet (og konveksitet) som en geometrisk egenskab ved grafen, se [MA2, Kap. 4]. Det er vist der, at definitionen i C 2 -tilfældet stemmer med ovenstående. I [MA2, Kap. 4] defineres også hvad det vil sige at være strengt konkav (henholdsvis strengt konveks) på D. Vi vil her blot nævne for C 2 -funktioner, at (6) (hhv. (7)) med skarpe ulighedstegn medfører streng konkavitet (hhv. streng konveksitet), men at det omvendte ikke gælder. Vi vil nu vise følgende sætning: Sætning 2. Lad f(x, y) være en C 2 -funktion på en konveks mængde D R 2 med indre punkter, og lad (x 0, y 0 ) være et indre punkt i D. 1 Det er tilstrækkeligt for, at f har maksimum i (x 0, y 0 ), at (a) (x 0, y 0 ) er et stationært punkt, (b) f er konkav på D. 2 Det er tilstrækkeligt for, at f har minimum i (x 0, y 0 ), at (a) (x 0, y 0 ) er et stationært punkt, (b) f er konveks på D. Til beviset vil vi bruge en lille udregning vedrørende kvadratiske former i to variable. Når A, B og C er givne reelle tal, siges (9) Q(h, k) = Ah 2 + 2Bhk + Ck 2, h, k R, at være en kvadratisk form. (Der kunne også stå B i stedet for 2B, men det viser sig at være praktisk at have en faktor 2 dér.) Argumenterne i den følgende hjælpesætning er hentet fra [MA1, side 479] og [MA2, side 106]. 3
4 Hjælpesætning 2. 1 Hvis A, B og C opfylder (10) A 0, C 0, AC B 2 0, så er Q(h, k) 0 for alle (h, k) R 2. Hvis de opfylder (11) A < 0, AC B 2 > 0, så er også C < 0, og der gælder, at Q(h, k) < 0 for alle (h, k) R 2 med (h, k) (0, 0). 2 Hvis A, B og C opfylder (12) A 0, C 0, AC B 2 0, så er Q(h, k) 0 for alle (h, k) R 2. Hvis de opfylder (13) A > 0, AC B 2 > 0, så er også C > 0, og der gælder, at Q(h, k) > 0 for alle (h, k) R 2 med (h, k) (0, 0). Bevis. 1. Antag først, at (10) er opfyldt. Vi deler diskussionen i to tilfælde, eftersom A er 0 eller ej. Hvis A = 0, giver den tredje betingelse i (10), at B 2 0, men da B 2 altid er 0, kan dette kun finde sted hvis B = 0. Så er den kvadratiske form lig med Ck 2, som er 0, da C 0 og k 2 0. Det viser påstanden om Q(h, k) i dette tilfælde. Hvis A 0, kan vi omskrive Q(h, k) således: Q(h, k) = Ah 2 + 2Bhk + Ck 2 (14) = A (h 2 2BA CA + hk + k2) ( = A h 2 + 2B B2 hk + k 2 B2 k 2 + C A A 2 A 2 A k2) ( (h = A + B A k) 2 + AC B 2 A k ). 2 2 Det, der skete undervejs var, at vi skaffede et kvadrat på en toleddet størrelse ( h+ B A k) 2 ved at lægge til og trække fra; tricket kaldes at komplettere kvadratet. Nu kan det ses direkte på (14), at det giver et tal 0, ligegyldigt hvad h og k er, for faktoren A er negativ, og det inden i parentesen er sum af et kvadrat og et kvadrat ganget med et tal 0, altså 0. Dette viser den del af 1, der vedrører uskarpe uligheder. For den sidste del af 1 med skarpe uligheder bemærker vi først, at da B 2 0, medfører (11), at AC AC B 2 > 0, så da A er negativ, må C også være det. Nu betragter vi udregningen (14) (A er jo 0). Når (h, k) (0, 0), er størrelsen i den store parentes > 0, for enten er k 0, og så er sidste led positivt, eller, hvis k = 0 er h 0, og så er første led i parentesen positivt. Produktet med A er da < 0.
Hermed er beviset for 1 gennemført. For 2 kan man bemærke, at i dette tilfælde opfylder Q(h, k) betingelserne under 1, så vi kan bruge resultatet derfra. Bevis for Sætning 2. Antag at betingelserne i Sætning 2, 1, er opfyldt; vi skal vise, at udsagnet (1) gælder. Vælg et vilkårligt punkt (x, y) i D, som holdes fast i det følgende; så skal vi vise, at (15) f(x 0, y 0 ) f(x, y). Vi betragter linien i R 2 gennem (x 0, y 0 ) og (x, y); det er punkterne fremstillet ved (16) (x 0, y 0 ) + t(x x 0, y y 0 ), t R. Betegn (x x 0, y y 0 ) = (h, k). Da D er konveks, er alle de punkter, hvor t [0, 1], med i D (for t = 0 fås (x 0, y 0 ) og for t = 1 fås (x, y)). Da (x 0, y 0 ) er et indre punkt af D, findes der en lille cirkel omkring (x 0, y 0 ), der er med i D, derfor kan de værdier af t, der giver punkter i D, udstrækkes til at indeholde et lille interval omkring 0. Altså, for et passende r > 0 vil intervallet I = [ r, 1] ved (16) afbildes over i et liniestykke i D. Nu betragter vi funktionen (17) G(t) = f(x 0 + ht, y 0 + kt), t I; den fremstiller værdierne af f på liniestykket. Her er G en funktion af én variabel t; den er C 2 (fordi f og de lineære funktioner er det), og G(0) = f(x 0, y 0 ), G(1) = f(x, y). For at vise (15) skal vi nu bare vise, at (18) G(0) G(1). Det gør vi ved at bringe Hjælpesætning 1 i spil. Ved kædereglen fås: (19) G (t) = f 1 (x 0 + ht, y 0 + kt)h + f 2 (x 0 + ht, y 0 + kt)k. Specielt er G (0) = 0, da f 1 og f 2 er 0 i (x 0, y 0 ). Brug kædereglen igen til at finde G (t): (20) G (t) = f 11(x 0 + ht, y 0 + kt)h 2 + 2f 12(x 0 + ht, y 0 + kt)hk + f 22(x 0 + ht, y 0 + kt)k 2. Betegnes de anden afledede af f i punktet (x 0 +ht, y 0 +kt) ved f 11 = A, f 12 = B, f 22 = C, får vi G (t) skrevet som (21) G (t) = Ah 2 + 2Bhk + Ck 2, ligesom i (9). Konkaviteten af f giver, at A, B og C opfylder (10), så det fås af Hjælpesætning 2.1, at G (t) 0. Altså har vi om G, at G er konkav på I og stationær i t = 0, så det følger af Hjælpesætning 1, at G(t) har maksimum i 0, og dermed gælder (18). Dette viser 1 af Sætning 2. Da minimumspunkter for f er maksimumspunkter for f, og (8) gælder, fås 2 ved at anvende 1 på f. 5
6 3. Lokalt ekstremum. I [MA1, 13.2] defineres begreberne lokalt maksimum, lokalt minimum og saddelpunkt, og der formuleres en sætning med tilstrækkelige betingelser: Sætning 3. Antag, at f(x, y) er C 2 på en mængde D R 2, og lad (x 0, y 0 ) være et indre punkt, som er stationært for f. (i) Hvis (22) f 11 (x 0, y 0 ) < 0, f 11 (x 0, y 0 )f 22 (x 0, y 0 ) (f 12 (x 0, y 0 )) 2 > 0, så har f lokalt maksimum i (x 0, y 0 ). (ii) Hvis (23) f 11 (x 0, y 0 ) > 0, f 11 (x 0, y 0 )f 22 (x 0, y 0 ) (f 12 (x 0, y 0 )) 2 > 0, så har f lokalt minimum i (x 0, y 0 ). (iii) Hvis (24) f 11(x 0, y 0 )f 22(x 0, y 0 ) (f 12(x 0, y 0 )) 2 < 0, så har f saddelpunkt i (x 0, y 0 ). Sætningen vises for funktioner af n variable i [MA2, Kap. 8.3] Vi vil her give et bevis for (i) og (ii). Bevis for Sætning 3 (i). Ulighederne (22) gælder i punktet (x 0, y 0 ), og da f 11, f 22 og f 12 er kontinuerte funktioner på D, findes der en lille cirkel B = B((x 0, y 0 ), r) omkring (x 0, y 0 ), så (22) gælder for alle (x, y) B. (Her bruger vi den stringente definition af kontinuitet! I detaljer: Betegn f 11 f 22 (f 12 ) ved g. Vi ved, at g(x 0, y 0 ) har en positiv værdi a. Lad ε = a/2. Så findes der et δ (valgt så lille, at B((x 0, y 0 ), δ) D), så at for (x, y) B((x 0, y 0 ), δ) er g(x, y) g(x 0, y 0 ) < a/2, altså a/2 < g(x, y) a < a/2, og dermed a/2 < g(x, y) < 3a/2. Det ses, at g er positiv på B((x 0, y 0 ), δ). Da f 11 (x 0, y 0 ) = b < 0, kan vi på lignende måde finde et δ, så f 11(x, y) < b/2 < 0 på B((x 0, y 0 ), δ ). Som r tager vi det mindste af tallene δ og δ.) Nu ser vi, at f opfylder definitionen af konkav funktion for (x, y) B. Det er en konveks mængde med indre punkter, så Sætning 2 giver, at f betragtet på B har maksimum i (x 0, y 0 ). Dermed har funktionen lokalt maksimum i (x 0, y 0 ) når den betragtes på D. (ii) fås nu ved at vende nogle fortegn. Vedr. (iii): I det simple specialtilfælde, hvor f 11 (x 0, y 0 ) > 0 og f 22 (x 0, y 0 ) < 0 kan man ret let vise, at der er punkter (x, y 0 ) vilkårligt tæt på (x 0, y 0 ) hvor f(x, y 0 ) f(x 0, y 0 ) > 0, og punkter (x 0, y) vilkårligt tæt på (x 0, y 0 ) hvor f(x 0, y) f(x 0, y 0 ) < 0. Dette er i en vis forstand typisk for hvad der sker i almindelighed. 4. Karakterisering af konkave funktioner af en variabel. Af hensyn til en anvendelse i [MA2, Kap. 4] viser vi her, at Definition 1.1 af konkav funktion stemmer overens med den geometriske definition nævnt i [MA1, side 319]: Liniestykket mellem to vilkårlige punkter på grafen ligger under eller på grafen. Vi medtager en trejde definition for én gang differentiable funktioner, der har betydning i [MA2, Kap. 4]. For simpelheds skyld betragtet en funktion f defineret på et åbent interval I.
Definition 3. Vi siger at f er konkav på I, når der for to vilkårlige punkter på grafen, (x 0, f(x 0 )) og (x, f(x)), gælder, at liniestykket mellem punkterne (også kaldet korden mellem punkterne) ligger under eller på grafen. Med andre ord, udtrykt ved en ulighed: (25) f(λx + (1 λ)x 0 ) λf(x) + (1 λ)f(x 0 ) for λ [0, 1]. Dette er den endimensionale version af uligheden [MA2, 4.5.(2)]. funktioner kan man i stedet betragte følgende definition: 7 For differentiable Definition 4. Når f er differentiabel på I siger vi, at f er konkav på I, når der for ethvert punkt (x 0, f(x 0 )) af grafen gælder, at grafen ligger under eller på tangenten gennem punkktet. Med andre ord, (26) f(x) f(x 0 ) + f (x 0 )(x x 0 ), for x I. Her er (26) den endimensionale version af uligheden [MA2, 4.6.(1)] (med f(x 0 ) flyttet over på højre side). Ligningen for tangenten gennem (x 0, f(x 0 )) er som bekendt (27) y = f(x 0 ) + f (x 0 )(x x 0 ). Endelig har vi Definition 1.1 af konkavitet, når f er to gange differentiabel: (28) f (x) 0 for ethvert x I, og vi bemærker, at dette er ækvivalent med: (29) f (x) er aftagende på I. At (28) (29) for to gange differentiable funktioner, er vist i [MA1] (jvf. 5.3.(2), 5.9.(2) og Merknad side 306). For at gøre det nemt for læseren gentages beviset her: Når (28) gælder, har vi for vilkårlige tal x, x I med x < x, at der ifølge middelværdisætningen findes et tal x (x, x ), så at (f (x ) f (x))/(x x) = f (x ) 0; heraf fås ved at gange med x x, at f (x ) f (x) 0, hvilket viser (29). Når (29) gælder, er, for vilkårligt x I, differenskvotienterne (f (x + h) f (x))/h 0 for alle tilladte h; så er grænseværdien f (x) også 0, altså (28) gælder. Vi vil vise: Sætning 4. For differentiable funktioner er Definition 3 og 4 ækvivalente. For to gange differentiable funktioner er Definition 3, 4 og 1.1 ækvivalente. Bevis. Antag først, at f er differentiabel, så vil vi vise, at når f opfylder Definition 3, så opfylder f Definition 4; kort udtrykt: Def. 3 = Def. 4. Som vi skal se, giver beviset også, at Def. 3 = Def. 1.1 når f er to gange differentiabel (derved at betingelsen (29) er opfyldt). Betragt tre tal x 1 < x 2 < x 3 i intervallet I samt de tilsvarende punkter P = (x 1, f(x 1 )), Q = (x 2, f(x 2 )) og R = (x 3, f(x 3 )) på grafen.
8 y Q R P Q x 1 x 2 x 3 x Når Definition 3 er opfyldt, ligger Q over eller på korden P R. Derfor er hældningskoefficienten for korden P Q større end eller lig med hældningskoefficienten for korden P R. Dette viser, at når x 2 vokser, så aftager hældningskoefficienten for korden P Q. Da f (x 1 ) er grænseværdi af hældningskoefficienterne på korderne P Q for x 2 x 1, må f (x 1 ) være alle disse korders hældninger det gælder specielt korden P R, altså: (30) f (x 1 ) f(x 3) f(x 1 ) x 3 x 1. Lader vi x 1 spille rollen som x 0, og x 3 spille rollen som x, får vi heraf ved at gange med x 3 x 1 og bytte om på de to sider: (31) f(x) f(x 0 ) f (x 0 )(x x 0 ) for x > x 0. På den anden side kan vi se, at korden QR har lavere hældningskoefficient end P R, så hældningskoefficienten af QR aftager, når x 2 vokser op mod x 3. Det følger, at hældningskoefficienterne for alle korder QR er deres grænseværdi f (x 3 ) for x 2 x 3. Specielt får vi uligheden (ved at tage x 2 = x 1 ): (32) f(x 3 ) f(x 1 ) x 3 x 1 f (x 3 ). Nu lader vi her x 3 spille rollen som x 0, og x 1 spille rollen som x; så fås ved multiplikation med x 3 + x 1 (der vender ulighedstegnet!) (33) f(x) f(x 0 ) f (x 0 )(x x 0 ) for x < x 0. Tilsammen viser (31) og (33), at betingelsen i Definition 4 er opfyldt. Endvidere ser vi, at (30) og (32) tilsammen medfører, at (34) f (x 1 ) f (x 3 ) når x 1 < x 3, hvormed også betingelse (29) er opfyldt. Når f er to gange differentiabel viser dette at (28), dvs. Definition 1.1, er opfyldt. Herefter vil vi vise, at Def. 4 = Def. 3. Betragt tre punkter P, Q og R som ovenfor, så skal vi vise udfra egenskaberne i Definition 4, at Q ligger over korden P R. Vi ved, at
grafen ligger under tangenten gennem Q. Denne tangent deler planen i to halvplaner, en øvre og en nedre, og vi ved altså, at punkterne P og R ligger i den nedre halvplan. Da halvplanen er konveks, ligger hele korden P R i halvplanen. Specielt vil det punkt Q på korden, der har x-værdi x 2, have y-værdi f(x 2 ). Da punktet Q kan være et vilkårligt punkt på grafen mellem P og R, viser dette at hele korden ligger under eller på grafen. Vi har hermed vist, at Definition 3 og 4 er ækvivalente for differentiable funktioner. Beviset er formuleret geometrisk; man kunne også genneføre det ved at regne på uligheder som i beviset for [MA2, Sætning 4.6.1]. Der mangler nu blot at vises, at Def. 1.1 = Def. 4 for to gange differentiable funktioner. Da (28) (29) for to gange differentiable funktioner, skal vi bare vise, at (29) medfører egenskaben i Def. 4. For tre værdier x 1 < x 2 < x 3 er det nu givet, at der altid gælder: (35) f (x 1 ) f (x 2 ) f (x 3 ). Ifølge middelværdisætningen anvendt på x 1 og x 3 findes et tal x 2 mellem dem, så at 9 (36) f(x 3 ) f(x 1 ) x 3 x 1 = f (x 2 ). Dermed gælder ifølge (35), at (37) f (x 1 ) f(x 3) f(x 1 ) x 3 x 1 f (x 3 ). Her er x 1 og x 3 vilkårlige tal i I med x 1 < x 3. Den venstre ulighed medfører (31), som vist tidligere (med x 1 = x 0, x 3 = x), og den højre ulighed medfører som tidligere vist (33) (med x 1 = x, x 3 = x 0 ). (31) og (33) tilsammen viser betingelsen i Definition 4. Der er naturligvis en tilsvarende sætning vedrørende konvekse funktioner, som fås ved at anvende ovenstående på f.