Contenido principal

Curso: Cálculo multivariable > Unidad 3

Lección 4: Optimizar funciones multivariables (artículos)

Razonamiento detrás del criterio de la segunda derivada

Para aquellos de ustedes que quieran ver por qué funciona la segunda derivada parcial, aquí está un bosquejo de una demostración.

Antecedentes

En el último artículo, dimos las bases para el criterio de la segunda derivada parcial, pero fue solo una idea intuitiva vaga de por qué es cierta. Este artículo es para aquellos que quieran indagar un poco más en las matemáticas, pero no es estrictamente necesario si solo quieres saber aplicar ese criterio.

Qué vamos a construir

Para probar si un punto crítico de una función multivariable es un mínimo o máximo local, examina la aproximación cuadrática de la función en ese punto. Es más fácil analizar si esta aproximación cuadrática tiene máximos y mínimos.
Para funciones de dos variables, esto se reduce al estudio de una expresión que tiene este aspecto:

$a x^{2} + 2 b x y + c y^{2}$ ‍

Estas se conocen como formas cuadráticas. La regla para saber cuándo una forma cuadrática es siempre positiva o siempre negativa se traduce directamente al criterio de la segunda derivada parcial.

Caso de una variable mediante aproximación cuadrática

En primer lugar, seguiremos el razonamiento formal de por qué funciona el criterio de la segunda derivada para una sola variable. Por formal, nos referimos a captar la idea de concavidad con un argumento preciso.

En el cálculo de una sola variable, cuando

f^{'} (a) = 0

para alguna función

f

y algún valor de entrada

a

, el criterio de la segunda derivada nos dice que:

$f$ ‍ tiene un máximo local en $a$ ‍ si $f^{″} (a) < 0$ ‍.
$f$ ‍ tiene un mínimo local en $a$ ‍ si $f^{″} (a) > 0$ ‍.
Si $f^{″} (a) = 0$ ‍, la segunda derivada no es suficiente para determinar si $f$ ‍ tiene un máximo, un mínimo o un punto de inflexión en $a$ ‍.

Para pensar por qué funciona esta prueba, empieza por aproximar la función con un polinomio de Taylor hasta el término cuadrático, que también se conoce como una aproximación cuadrática.

\begin{array}{r} f (x) \approx f (a) + f^{'} (a) (x - a) + \frac{1}{2} f^{″} (a) (x - a)^{2} \end{array}

Puesto que

f^{'} (a) = 0

, esta aproximación cuadrática se simplifica así:

\begin{array}{r} f (a) + \frac{1}{2} f^{″} (a) (x - a)^{2} \end{array}

Observa que

(x - a)^{2} \geq 0

para todos los valores posibles de

x

, pues los términos cuadráticos siempre son cero o positivos. ¡Ese simple hecho nos dice todo lo que necesitamos saber! ¿Por qué?

Porque cuando

f^{″} (a) > 0

, podemos leer nuestra aproximación así:

\begin{array}{r} f (a) + \underset{\begin{array}{c} Esto es \geq 0 para toda x, \\ y es igual a 0 solo cuando x = a . \end{array}}{\underset{⏟}{\frac{1}{2} f^{″} (a) (x - a)^{2}}} \end{array}

Por lo tanto,

a

es un mínimo local de nuestra aproximación. De hecho es un mínimo global, pero eso no nos importa. Cuando la aproximación cuadrática de una función tiene un mínimo local en algún punto, la función misma debe tener un mínimo local en ese lugar. Hablaremos más sobre esto en la última sección; pero por ahora la intuición debe ser clara, pues la función y su aproximación se "abrazan" la una a la otra alrededor del punto de aproximación

a

Similarmente, si

f^{″} (a) < 0

, podemos leer la aproximación como

\begin{array}{r} f (a) + \underset{\begin{array}{c} Esto es \leq 0 para todos los valores de x, \\ e igual a 0 solo cuando x = a \end{array}}{\underset{⏟}{\frac{1}{2} f^{″} (a) (x - a)^{2}}} \end{array}

En este caso, la aproximación tiene un máximo local en

x = a

, lo que indica que la función misma también tiene un máximo local ahí.

Cuando

f^{″} (a) = 0

, nuestra aproximación cuadrática siempre es igual a la constante

f (a)

, lo que significa que nuestra función es en algún sentido demasiado plana para ser analizada solamente con la segunda derivada.

Qué se obtiene de todo esto:

Cuando

f^{'} (a) = 0

, determinar si

f

tiene un máximo o un mínimo local en

a

se reduce a estudiar si el signo del término cuadrático de la aproximación de Taylor,

\frac{1}{2} f^{″} (a) (x - a)^{2}

, es positivo o negativo.

Caso de dos variables: calentamiento visual

Ahora considera una función

f (x, y)

con dos entradas y una salida, que tiene un punto crítico. Esto es, un punto donde ambas derivadas parciales son

0

\begin{array}{r} f_{x} (x_{0}, y_{0}) = 0 \\ f_{y} (x_{0}, y_{0}) = 0 \end{array}

que de manera compacta se escribe como

$\nabla f (x_{0}, y_{0}) = 0 \leftarrow Vector cero$ ‍

Para determinar si este punto es un máximo local, un mínimo local o ninguno de los dos, examinamos su aproximación cuadrática. Empecemos con una vista previa de lo que queremos hacer:

$f$ ‍ tendrá un mínimo local en el punto crítico $(x_{0}, y_{0})$ ‍ si la aproximación cuadrática en el punto es un paraboloide cóncavo hacia arriba.
$f$ ‍ tendrá un máximo local allí si la aproximación cuadrática es un paraboloide cóncavo hacia abajo:
Si la aproximación cuadrática tiene forma de silla, $f$ ‍ no tiene ni un máximo ni un mínimo, sino un punto silla.
Si la aproximación cuadrática es horizontal en alguna o todas las direcciones, no tenemos suficiente información para sacar conclusiones sobre $f$ ‍.

Análisis de la aproximación cuadrática

La fórmula para la aproximación caudrática de

f

, en forma de vector, se ve así:

$Q_{f} (x) = \underset{Constante}{\underset{⏟}{f (x_{0})}} + \underset{Término lineal}{\underset{⏟}{\nabla f (x_{0}) \cdot (x - x_{0})}} + \underset{Término cuadrático}{\underset{⏟}{\frac{1}{2} (x - x_{0})^{T} H f (x_{0}) (x - x_{0})}}$ ‍

Ya que nos interesan los puntos donde el gradiente es cero, podemos deshacernos de ese término del gradiente

$Q_{f} (x) = f (x_{0}) + \frac{1}{2} (x - x_{0})^{T} H f (x_{0}) (x - x_{0})$ ‍

Para ver los detalles del caso de dos variables, expandamos el término hessiano,

\begin{aligned} (x - x_{0})^{T} H_{f} (x_{0}) (x - x_{0}) \\ = {[\begin{array}{c} x - x_{0} \\ y - y_{0} \end{array}]}^{T} [\begin{array}{cc} f_{x x} (x_{0}, y_{0}) & f_{x y} (x_{0}, y_{0}) \\ f_{y x} (x_{0}, y_{0}) & f_{y y} (x_{0}, y_{0}) \end{array}] [\begin{array}{c} x - x_{0} \\ y - y_{0} \end{array}] \\ = [(x - x_{0}) (y - y_{0})] [\begin{array}{cc} f_{x x} (x_{0}, y_{0}) & f_{x y} (x_{0}, y_{0}) \\ f_{y x} (x_{0}, y_{0}) & f_{y y} (x_{0}, y_{0}) \end{array}] [\begin{array}{c} x - x_{0} \\ y - y_{0} \end{array}] \\ = [(x - x_{0}) (y - y_{0})] [\begin{array}{cc} f_{x x} (x_{0}, y_{0}) (x - x_{0}) + f_{x y} (x_{0}, y_{0}) (y - y_{0}) \\ f_{y x} (x_{0}, y_{0}) (x - x_{0}) + f_{y y} (x_{0}, y_{0}) (y - y_{0}) \end{array}] \\ = f_{x x} (x_{0}, y_{0}) (x - x_{0})^{2} + f_{x y} (x_{0}, y_{0}) (y - y_{0}) (x - x_{0}) \\ + f_{y x} (x_{0}, y_{0}) (x - x_{0}) (y - y_{0}) + f_{y y} (x_{0}, y_{0}) (y - y_{0})^{2} \\ = f_{x x} (x_{0}, y_{0}) (x - x_{0})^{2} + 2 f_{x y} (x_{0}, y_{0}) (y - y_{0}) (x - x_{0}) + f_{y y} (x_{0}, y_{0}) (y - y_{0})^{2} \end{aligned}

Este último paso se sigue dada a la simetría de las derivadas parciales de segundo orden:

f_{x y} = f_{y x}

\begin{aligned} Q_{f} (x, y) & = f (x_{0}, y_{0}) + \\ \frac{1}{2} f_{x x} (x_{0}, y_{0}) (x - x_{0})^{2} + \\ f_{x y} (x_{0}, y_{0}) (x - x_{0}) (y - y_{0}) + \\ \frac{1}{2} f_{y y} (x_{0}, y_{0}) (y - y_{0})^{2} \end{aligned}

(Nota: si sientes que esta aproximación o algo de la notación es extraña o poco familiar, considera revisar el artículo sobre aproximaciones cuadráticas).

Como mostramos en el caso de una sola variable, la estrategia es estudiar si el término cuadrático de esta aproximación es siempre positivo o siempre negativo.

\begin{aligned} Q_{f} (x, y) & = f (x_{0}, y_{0}) + \\ \begin{array}{c} \frac{1}{2} f_{x x} (x_{0}, y_{0}) (x - x_{0})^{2} + \\ f_{x y} (x_{0}, y_{0}) (x - x_{0}) (y - y_{0}) + \\ \frac{1}{2} f_{y y} (x_{0}, y_{0}) (y - y_{0})^{2} \end{array}} \begin{array}{c} ¿Es siempre \geq 0 ? \\ ¿Es siempre \leq 0 ? \\ ¿Puede ser uno de los dos? \end{array} \end{aligned}

Por lo pronto, escribir este término es tedioso, pero podemos destilar su esencia si estudiamos expresiones de la siguiente forma:

\begin{array}{r} a x^{2} + 2 b x y + c y^{2} \end{array}

Tales expresiones se llaman usualmente "formas cuadráticas".

La palabra "cuadrática" indica que los términos son de segundo orden, o sea que involucran el producto de dos variables.
La palabra "forma" en este contexto es desconcertante, y hace que la idea de una forma cuadrática suene más complicada de lo que realmente es. Los matemáticos dicen "forma cuadrática" en vez de "expresión cuadrática" para enfatizar que todos los términos son de orden $2$ ‍, y que no hay términos lineales o constantes enredando la expresión. Adoptar una frase como "expresión puramente cuadrática" habría sido mucho más razonable y comprensible.

Para hacer la notación de las formas cuadráticas más fácil de generalizar a dimensiones más altas, a menudo las escribimos con respecto a la matriz simétrica

M

\begin{array}{r} x^{⊺} M x = [x y] [\begin{array}{cc} a & b \\ b & c \end{array}] [\begin{array}{c} x \\ y \end{array}] \end{array}

He aquí la pregunta crucial:

¿Cómo podemos determinar si la expresión $a x^{2} + 2 b x y + c y^{2}$ ‍ es siempre positiva, siempre negativa o ninguna de las dos, con solo estudiar las constantes $a$ ‍, $b$ ‍ y $c$ ‍?

Análisis de las formas cuadráticas

Si sustituimos un valor constante

y_{0}

para

y

, obtenemos la función cuadrática de una sola variable:

$a x^{2} + 2 b x y_{0} + c (y_{0})^{2}$ ‍

La gráfica de esta función es una parábola, y solo cruzará el eje

x

si esta función cuadrática tiene raíces reales.

De lo contrario, la función es siempre positiva o siempre negativa, dependiendo del signo de

a

Podemos aplicar la fórmula cuadrática a esta expresión para ver si sus raíces son reales o complejas.

$a x^{2} + 2 b x y_{0} + c (y_{0})^{2}$ ‍

El término principal es $a$ ‍.
El término lineal es $2 b y_{0}$ ‍.
El término constante es $c y_{0}^{2}$ ‍

Aplicar la fórmula cuadrática se ve así:

\begin{aligned} \frac{- 2 b y_{0} \pm \sqrt{(- 2 b y_{0})^{2} - 4 a c y_{0}^{2}}}{2 a} \\ ⇓ \\ \frac{- 2 b y_{0} \pm 2 y_{0} \sqrt{b^{2} - a c}}{2 a} \\ ⇓ \\ y_{0} (\frac{- b \pm \sqrt{b^{2} - a c}}{a}) \end{aligned}

y_{0} = 0

, la parábola tiene una raíz doble en

x = 0

, lo que significa que apenas toca al eje

x

en ese punto. En otro caso, el que las raíces sean reales depende solamente del signo de la expresión

b^{2} - a c

Si $b^{2} - a c \geq 0$ ‍, existen dos raíces reales, y la gráfica de $a x^{2} + 2 b x y_{0} + c (y_{0})^{2}$ ‍ cruza el eje $x$ ‍.
En caso contrario, si $b^{2} - a c < 0$ ‍, no existen raíces reales, y la gráfica de $a x^{2} + 2 b x y_{0} + c (y_{0})^{2}$ ‍ es totalmente positiva o totalmente negativa.

Por ejemplo, considera el caso

$a = 1$ ‍
$b = 3$ ‍
$c = 5$ ‍

En este caso,

b^{2} - a c = 3^{2} - (1) (5) = 4 > 0

, así que la gráfica de

f (x) = x^{2} + 6 x y_{0} + 5 y_{0}^{2}

siempre cruza al eje

x

. He aquí un video que muestra cómo cambia la gráfica conforme dejamos que el valor de

y_{0}

varíe lentamente.

Contenedor video de Khan Academy

Ver la transcripción del video

Esto corresponde con el hecho de que la gráfica de

f (x, y) = x^{2} + 6 x y + 5 y^{2}

puede ser tanto positiva como negativa.

Contenedor video de Khan Academy

Ver la transcripción del video

En contraste, considera el caso

$a = 2$ ‍
$b = 2$ ‍
$c = 3$ ‍

Ahora

b^{2} - a c = 2^{2} - (2) (3) = - 2 < 0

. Esto significa que la gráfica de

f (x) = 2 x^{2} + 4 x y_{0} + 3 y_{0}^{2}

nunca cruza el eje

x

, aunque lo toca si la constante

y_{0}

es cero. Aquí mostramos un video donde se ve cómo cambia la gráfica conforme dejamos que la constante

y_{0}

varíe:

Contenedor video de Khan Academy

Ver la transcripción del video

Esto corresponde con el hecho que la función multivariable

f (x, y) = 2 x^{2} + 4 x y + 3 y^{2}

siempre es positiva.

Contenedor video de Khan Academy

Ver la transcripción del video

Regla para el signo de las formas cuadráticas

Como si se tratara de confundir a los estudiantes familiarizados con la fórmula cuadrática, las propiedades de las formas cuadráticas a menudo se establecen en términos de

a c - b^{2}

en lugar de

b^{2} - a c

. Ya que una expresión es el negativo de la otra, tenemos que cambiar de

\geq 0

\leq 0

. La razón por la que los matemáticos prefieren

a c - b^{2}

es porque este es el determinante de a matriz que describe la forma cuadrática:

$det ([\begin{array}{cc} a & b \\ b & c \end{array}]) = a c - b^{2}$ ‍

Como recordatorio, así es como se ve la forma cuadrática utilizando la matriz.

$a x^{2} + 2 b x y + c y^{2} = [x y] [\begin{array}{cc} a & b \\ b & c \end{array}] [\begin{matrix} x \\ y \end{matrix}]$ ‍

Al vincular esta convención con lo que encontramos en la sección anterior, escribimos la regla del signo de una forma cuadrática de la siguiente manera:

Si $a c - b^{2} < 0$ ‍, la forma cuadrática puede alcanzar valores positivos y negativos, y es posible que sea cero en otros valores diferentes de $(x, y) = (0, 0)$ ‍.
Si $a c - b^{2} > 0$ ‍, la forma es siempre positiva o siempre negativa, dependiendo del signo de $a$ ‍, pero en ambos casos solo es igual a $0$ ‍ en $(x, y) = (0, 0)$ ‍.
- Si $a > 0$ ‍, la forma siempre es positiva, por lo que $(0, 0)$ ‍ es un mínimo global de esta.
- Si $a < 0$ ‍, la forma siempre es negativa, por lo que $(0, 0)$ ‍ es su máximo global.
Si $a c - b^{2} = 0$ ‍, la forma será de nuevo o siempre positiva o siempre negativa, pero ahora es imposible que sea igual a $0$ ‍ en valores distintos de $(x, y) = (0, 0)$ ‍.

Un poco de terminología:

Cuando

a x^{2} + 2 b x y + c y^{2} > 0

para todo

(x, y)

distinto de

(x, y) = (0, 0),

decimos que la forma cuadrática y su matriz asociada son positivas definidas.

Cuando

a x^{2} + 2 b x y + c y^{2} < 0

para todo

(x, y)

distinto de

(x, y) = (0, 0),

decimos que la forma cuadrática y su matriz asociada son negativas definidas.

Si reemplazas los signos

>

<

por

\geq

\leq

, respectivamente, las propiedades correspondientes son positiva semi-definida y negativa semi-definida.

Aplicación a $Q_{f}$ ‍

Bueno, regresando a donde comenzamos, vamos a escribir otra vez nuestra aproximación cuadrática:

\begin{aligned} Q_{f} (x, y) & = f (x_{0}, y_{0}) + \\ \frac{1}{2} f_{x x} (x_{0}, y_{0}) (x - x_{0})^{2} + \\ f_{x y} (x_{0}, y_{0}) (x - x_{0}) (y - y_{0}) + \\ \frac{1}{2} f_{y y} (x_{0}, y_{0}) (y - y_{0})^{2} \end{aligned}

La parte cuadrática de

Q_{f}

está escrita en términos de

(x - x_{0})

(y - y_{0})

en lugar de simplemente

x

y

, por lo que donde la regla del signo para la forma cuadrática hace referencia al punto

(0, 0)

, la aplicamos al punto

(x_{0}, y_{0})

Tal como en el caso de una sola variable, cuando la aproximación cuadrática

Q_{f}

tiene un máximo (o un mínimo) local en

(x_{0}, y_{0})

, significa que

f

tiene un máximo (o un mínimo) local en ese punto. Esto quiere decir que podemos trasladar la regla del signo de una forma cuadrática directamente para obtener el criterio de la segunda derivada:

Supongamos que

\nabla f (x_{0}, y_{0}) = 0

Si $f_{x x} (x_{0}, y_{0}) f_{y y} (x_{0}, y_{0}) - (f_{x y} (x_{0}, y_{0}))^{2} < 0$ ‍, entonces $f$ ‍ no tiene ni un mínimo ni un máximo en $(x_{0}, y_{0})$ ‍, sino un punto silla.
Si $f_{x x} (x_{0}, y_{0}) f_{y y} (x_{0}, y_{0}) - (f_{x y} (x_{0}, y_{0}))^{2} > 0$ ‍, la función $f$ ‍ definitivamente tiene un máximo o un mínimo en $(x_{0}, y_{0})$ ‍, y debemos determinar el signo de $f_{x x} (x_{0}, y_{0})$ ‍ para saber cuál de los dos es.
- Si $f_{x x} (x_{0}, y_{0}) > 0$ ‍, la función $f$ ‍ tiene un mínimo local.
- Si $f_{x x} (x_{0}, y_{0}) < 0$ ‍, la función $f$ ‍ tiene un máximo local.
Si $f_{x x} (x_{0}, y_{0}) f_{y y} (x_{0}, y_{0}) - (f_{x y} (x_{0}, y_{0}))^{2} = 0$ ‍, las segundas derivadas por sí solas no nos pueden decir si $f$ ‍ tiene un máximo o mínimo local.

Nuestras herramientas actuales no son suficientes

Todo lo que presentamos aquí casi constituye una prueba completa, excepto por un paso final.

Intuitivamente, puede tener sentido que cuando una aproximación cuadrática se dobla y curva de cierta manera, la función debe doblarse y curvarse de la misma manera cerca del punto de aproximación. Pero ¿cómo formalizamos esto más allá de la intuición?

Desafortunadamente no lo haremos aquí. Para hacer rigurosos los argumentos sobre derivadas, requerimos del análisis real, columna vertebral teórica del cálculo.

Más aún, puedes estarte preguntando cómo esto se generaliza a funciones con más de dos entradas. Hay una notación para las formas cuadráticas con múltiples variables, pero enunciar la regla para cuándo tales formas son siempre positivas o negativas requiere varias ideas del álgebra lineal.

Resumen

Para probar si un punto crítico de una función multivariable es un mínimo o máximo local, examina la aproximación cuadrática de la función en ese punto. Es más fácil analizar si esta aproximación cuadrática tiene máximos y mínimos.
Para funciones de dos variables, esto se reduce al estudio de una expresión que tiene este aspecto: