Матриця Гессе

Матриця Гессе — квадратна матриця елементами якої є часткові похідні деякої функції. Це поняття запровадив Людвіг Отто Гессе (1844), використовуючи іншу назву. Термін «матриця Гессе» належить Джеймсу Джозефу Сильвестрові.

Визначення

Формально, нехай дано дійсну функцію від n змінних:

f(x_{1},x_{2},\dots ,x_{n}),\,\!

якщо у функції f існують всі похідні другого порядку, то можна визначити матрицю Гессе для цієї функції:

H(f)_{ij}(x)={\frac {\partial ^{2}f}{\partial x_{i}\,\partial x_{j}}}\,\!

де $x=(x_{1},x_{2},...,x_{n}),$ тобто $H(f)={\begin{bmatrix}{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}\\\\{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}\end{bmatrix}}.$

Визначник цієї матриці називається визначником Гессе, або гесіаном.

Значення матриці Гессе пояснюється її появою у формулі Тейлора:

y=f(\mathbf {x} +\Delta \mathbf {x} )\approx f(\mathbf {x} )+J(\mathbf {x} )\Delta \mathbf {x} +{\frac {1}{2}}\Delta \mathbf {x} ^{\mathrm {T} }H(\mathbf {x} )\Delta \mathbf {x}

Матриці Гессе використовуються в задачах оптимізації методом Ньютона. Повне обчислення матриці Гессе може бути досить складним, тому були розроблені квазіньютонові алгоритми, засновані на наближених виразах для матриці Гессе. Найвідоміший з них — алгоритм Бройдена — Флетчера — Гольдфарба — Шанно.

Симетрія матриці Гессе

Мішані похідні функції f — це елементи матриці Гессе, що стоять не на головній діагоналі. Якщо вони неперервні, то порядок диференціювання не важливий:

{\frac {\partial }{\partial x}}\left({\frac {\partial f}{\partial y}}\right)={\frac {\partial }{\partial y}}\left({\frac {\partial f}{\partial x}}\right).

Це можна також записати як

f_{yx}=f_{xy}.\,

В цьому випадку матриця Гессе є симетричною.

Критичні точки функції

Докладніше: Тест другої часткової похідної

Якщо градієнт $f$ (її векторна похідна) рівний нулю в деякій точці $x_{0}$ , то ця точка називається критичною.

Якщо матриця Гессе є додатно визначеною в точці $x_{0}$ , то $x_{0}$ — точка локального мінімуму функції $f(x)$ .
Якщо матриця Гессе є від'ємно визначеною в точці $x_{0}$ , то $x_{0}$ — точка локального максимуму функції $f(x)$ .
Якщо матриця Гессе не є ні додатно визначеною, ні від'ємно визначеною, причому є невиродженою (тобто $(\det H(f)\neq 0)$ ), то $x_{0}$ — сідлова точка функції $f(x)$ .

Обрамлена матриця Гессе

У випадку оптимізації з додатковими умовами виникає також поняття обрамленої матриці Гессе. Нехай знову маємо функцію:

$f(x_{1},x_{2},\dots ,x_{n}),$

але тепер також розглянемо умови:

$g_{i}(x_{1},x_{2},\dots ,x_{n})=0,1\leqslant i\leqslant m,\,m<n$

При оптимізації функції f з додатковими умовами обрамлена матриця Гессе має вигляд:

$H(f,g)={\begin{bmatrix}0&\cdots &0&{\frac {\partial g_{1}}{\partial x_{1}}}&{\frac {\partial g_{1}}{\partial x_{2}}}&\cdots &{\frac {\partial g_{1}}{\partial x_{n}}}\\\\\vdots &\ddots &\vdots &\vdots &\vdots &\ddots &\vdots \\\\0&\cdots &0&{\frac {\partial g_{m}}{\partial x_{1}}}&{\frac {\partial g_{m}}{\partial x_{2}}}&\cdots &{\frac {\partial g_{m}}{\partial x_{n}}}\\\\{\frac {\partial g_{1}}{\partial x_{1}}}&\cdots &{\frac {\partial g_{m}}{\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}\\\\{\frac {\partial g_{1}}{\partial x_{2}}}&\cdots &{\frac {\partial g_{m}}{\partial x_{2}}}&{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}\\\\\vdots &\ddots &\vdots &\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial g_{1}}{\partial x_{n}}}&\cdots &{\frac {\partial g_{m}}{\partial x_{n}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}\end{bmatrix}}$

Для даної матриці можна сформувати різні головні мінори. Позначимо $|H_{i}(f,g)|,\,2\leqslant i\leqslant n$ — головний мінор матриці, для якого останнім елементом на головній діагоналі є ${\frac {\partial ^{2}f}{\partial x_{i}^{2}}}.$ Тоді можна сформувати достатні умови екстремуму для функції при виконанні обмежень.

Функція буде мати максимум при виконанні умов, якщо знаки послідовних n - m мінорів $|H_{i}(f,g)|,m+1\leqslant i\leqslant n,$ будуть чергуватися, при чому знак $|H_{i}(f,g)|$ буде рівний $(-1)^{m+1}.$

Функція буде мати мінімум при виконанні умов, всі послідовні n - m мінорів $|H_{i}(f,g)|,m+1\leqslant i\leqslant n,$ мають один знак, а саме $(-1)^{m}.$

Варіації і узагальнення

Якщо f — векторзначна функція, тобто

f=(f_{1},f_{2},\dots f_{n}),

то її другі часткові похідні утворюють не матрицю, а тензор рангу n+1.

Література

Григорій Михайлович Фіхтенгольц. Курс диференціального та інтегрального числення. — 2025. — 2391 с.(укр.)
Ляшко І.І., Ємельянов В.Ф., Боярчук О.К. Математичний аналіз. Частина 1. — К. : Вища школа, 1992. — 496 с. — ISBN 5-11-003757-4.(укр.)
Chiang, Alpha C., Fundamental Methods of Mathematical Economics, third edition, McGraw-Hill, 1984.
Nocedal, Jorge; Wright, Stephen J. (2006), Numerical Optimization (2nd ed.), Berlin, New York: Springer-Verlag, ISBN 978-0-387-30303-1