Матриця Гессе — квадратна матриця елементами якої є часткові похідні деякої функції. Це поняття запровадив Людвіг Отто Гессе (1844 ), використовуючи іншу назву. Термін «матриця Гессе» належить Джеймсу Джозефу Сильвестрові .
Формально, нехай дано дійсну функцію від n змінних:
f
(
x
1
,
x
2
,
…
,
x
n
)
,
{\displaystyle f(x_{1},x_{2},\dots ,x_{n}),\,\!}
якщо у функції f існують всі похідні другого порядку, то можна визначити матрицю Гессе для цієї функції:
H
(
f
)
i
j
(
x
)
=
∂
2
f
∂
x
i
∂
x
j
{\displaystyle H(f)_{ij}(x)={\frac {\partial ^{2}f}{\partial x_{i}\,\partial x_{j}}}\,\!}
де
x
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
,
{\displaystyle x=(x_{1},x_{2},...,x_{n}),}
тобто
H
(
f
)
=
[
∂
2
f
∂
x
1
2
∂
2
f
∂
x
1
∂
x
2
⋯
∂
2
f
∂
x
1
∂
x
n
∂
2
f
∂
x
2
∂
x
1
∂
2
f
∂
x
2
2
⋯
∂
2
f
∂
x
2
∂
x
n
⋮
⋮
⋱
⋮
∂
2
f
∂
x
n
∂
x
1
∂
2
f
∂
x
n
∂
x
2
⋯
∂
2
f
∂
x
n
2
]
.
{\displaystyle H(f)={\begin{bmatrix}{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}\\\\{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}\end{bmatrix}}.}
Визначник цієї матриці називається визначником Гессе , або гесіаном .
Значення матриці Гессе пояснюється її появою у формулі Тейлора:
y
=
f
(
x
+
Δ
x
)
≈
f
(
x
)
+
J
(
x
)
Δ
x
+
1
2
Δ
x
T
H
(
x
)
Δ
x
{\displaystyle y=f(\mathbf {x} +\Delta \mathbf {x} )\approx f(\mathbf {x} )+J(\mathbf {x} )\Delta \mathbf {x} +{\frac {1}{2}}\Delta \mathbf {x} ^{\mathrm {T} }H(\mathbf {x} )\Delta \mathbf {x} }
Матриці Гессе використовуються в задачах оптимізації методом Ньютона .
Повне обчислення матриці Гессе може бути досить складним, тому були розроблені квазіньютонові алгоритми, засновані на наближених виразах для матриці Гессе. Найвідоміший з них — алгоритм Бройдена — Флетчера — Гольдфарба — Шанно .
Мішані похідні функції f — це елементи матриці Гессе, що стоять не на головній діагоналі. Якщо вони неперервні, то порядок диференціювання не важливий:
∂
∂
x
(
∂
f
∂
y
)
=
∂
∂
y
(
∂
f
∂
x
)
.
{\displaystyle {\frac {\partial }{\partial x}}\left({\frac {\partial f}{\partial y}}\right)={\frac {\partial }{\partial y}}\left({\frac {\partial f}{\partial x}}\right).}
Це можна також записати як
f
y
x
=
f
x
y
.
{\displaystyle f_{yx}=f_{xy}.\,}
В цьому випадку матриця Гессе є симетричною .
Якщо градієнт
f
{\displaystyle f}
(її векторна похідна) рівний нулю в деякій точці
x
0
{\displaystyle x_{0}}
, то ця точка називається критичною .
Якщо матриця Гессе є додатно визначеною в точці
x
0
{\displaystyle x_{0}}
, то
x
0
{\displaystyle x_{0}}
— точка локального мінімуму функції
f
(
x
)
{\displaystyle f(x)}
.
Якщо матриця Гессе є від'ємно визначеною в точці
x
0
{\displaystyle x_{0}}
, то
x
0
{\displaystyle x_{0}}
— точка локального максимуму функції
f
(
x
)
{\displaystyle f(x)}
.
Якщо матриця Гессе не є ні додатно визначеною, ні від'ємно визначеною, причому є невиродженою (тобто
(
det
H
(
f
)
≠
0
)
{\displaystyle (\det H(f)\neq 0)}
), то
x
0
{\displaystyle x_{0}}
— сідлова точка функції
f
(
x
)
{\displaystyle f(x)}
.
У випадку оптимізації з додатковими умовами виникає також поняття обрамленої матриці Гессе. Нехай знову маємо функцію:
f
(
x
1
,
x
2
,
…
,
x
n
)
,
{\displaystyle f(x_{1},x_{2},\dots ,x_{n}),}
але тепер також розглянемо умови:
g
i
(
x
1
,
x
2
,
…
,
x
n
)
=
0
,
1
⩽
i
⩽
m
,
m
<
n
{\displaystyle g_{i}(x_{1},x_{2},\dots ,x_{n})=0,1\leqslant i\leqslant m,\,m<n}
При оптимізації функції f з додатковими умовами обрамлена матриця Гессе має вигляд:
H
(
f
,
g
)
=
[
0
⋯
0
∂
g
1
∂
x
1
∂
g
1
∂
x
2
⋯
∂
g
1
∂
x
n
⋮
⋱
⋮
⋮
⋮
⋱
⋮
0
⋯
0
∂
g
m
∂
x
1
∂
g
m
∂
x
2
⋯
∂
g
m
∂
x
n
∂
g
1
∂
x
1
⋯
∂
g
m
∂
x
1
∂
2
f
∂
x
1
2
∂
2
f
∂
x
1
∂
x
2
⋯
∂
2
f
∂
x
1
∂
x
n
∂
g
1
∂
x
2
⋯
∂
g
m
∂
x
2
∂
2
f
∂
x
2
∂
x
1
∂
2
f
∂
x
2
2
⋯
∂
2
f
∂
x
2
∂
x
n
⋮
⋱
⋮
⋮
⋮
⋱
⋮
∂
g
1
∂
x
n
⋯
∂
g
m
∂
x
n
∂
2
f
∂
x
n
∂
x
1
∂
2
f
∂
x
n
∂
x
2
⋯
∂
2
f
∂
x
n
2
]
{\displaystyle H(f,g)={\begin{bmatrix}0&\cdots &0&{\frac {\partial g_{1}}{\partial x_{1}}}&{\frac {\partial g_{1}}{\partial x_{2}}}&\cdots &{\frac {\partial g_{1}}{\partial x_{n}}}\\\\\vdots &\ddots &\vdots &\vdots &\vdots &\ddots &\vdots \\\\0&\cdots &0&{\frac {\partial g_{m}}{\partial x_{1}}}&{\frac {\partial g_{m}}{\partial x_{2}}}&\cdots &{\frac {\partial g_{m}}{\partial x_{n}}}\\\\{\frac {\partial g_{1}}{\partial x_{1}}}&\cdots &{\frac {\partial g_{m}}{\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}\\\\{\frac {\partial g_{1}}{\partial x_{2}}}&\cdots &{\frac {\partial g_{m}}{\partial x_{2}}}&{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}\\\\\vdots &\ddots &\vdots &\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial g_{1}}{\partial x_{n}}}&\cdots &{\frac {\partial g_{m}}{\partial x_{n}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}\end{bmatrix}}}
Для даної матриці можна сформувати різні головні мінори . Позначимо
|
H
i
(
f
,
g
)
|
,
2
⩽
i
⩽
n
{\displaystyle |H_{i}(f,g)|,\,2\leqslant i\leqslant n}
— головний мінор матриці, для якого останнім елементом на головній діагоналі є
∂
2
f
∂
x
i
2
.
{\displaystyle {\frac {\partial ^{2}f}{\partial x_{i}^{2}}}.}
Тоді можна сформувати достатні умови екстремуму для функції при виконанні обмежень.
Функція буде мати максимум при виконанні умов, якщо знаки послідовних n - m мінорів
|
H
i
(
f
,
g
)
|
,
m
+
1
⩽
i
⩽
n
,
{\displaystyle |H_{i}(f,g)|,m+1\leqslant i\leqslant n,}
будуть чергуватися, при чому знак
|
H
i
(
f
,
g
)
|
{\displaystyle |H_{i}(f,g)|}
буде рівний
(
−
1
)
m
+
1
.
{\displaystyle (-1)^{m+1}.}
Функція буде мати мінімум при виконанні умов, всі послідовні n - m мінорів
|
H
i
(
f
,
g
)
|
,
m
+
1
⩽
i
⩽
n
,
{\displaystyle |H_{i}(f,g)|,m+1\leqslant i\leqslant n,}
мають один знак, а саме
(
−
1
)
m
.
{\displaystyle (-1)^{m}.}
Якщо f — векторзначна функція, тобто
f
=
(
f
1
,
f
2
,
…
f
n
)
,
{\displaystyle f=(f_{1},f_{2},\dots f_{n}),}
то її другі часткові похідні утворюють не матрицю, а тензор рангу n+1.
Григорій Михайлович Фіхтенгольц . Курс диференціального та інтегрального числення . — 2024. — 2403 с.(укр.)
Кудрявцев Л. Д. Математический анализ . — М. : Высшая школа, 2004. — Т. 2. — 720 с.(рос.)
Chiang, Alpha C., Fundamental Methods of Mathematical Economics, third edition, McGraw-Hill, 1984.
Nocedal, Jorge; Wright, Stephen J. (2006), Numerical Optimization (2nd ed.), Berlin, New York: Springer-Verlag, ISBN 978-0-387-30303-1