梯度下降
Hessian矩阵 Link to heading
Hessian 矩阵是描述一个标量函数的二阶导数信息的方阵,反映了函数在各个方向上的曲率。它在多元函数的优化问题中扮演着重要角色,特别是当我们需要分析函数的凹凸性或寻找极值点时。
对于一个标量函数 $f(x_1, x_2, \ldots, x_n)$,其 Hessian 矩阵 $H$ 定义为:
$$ H = \left[ \begin{array}{ccc} \frac{\partial^2 f}{\partial x_1^2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{array} \right] $$其中
- $H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}$,表示函数 $f$ 对 $x_i$ 和 $x_j$ 的二阶偏导数。
- Hessian 矩阵是一个对称矩阵(如果f的二阶连续可微,$ \frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i} $)。
梯度向量 Link to heading
描述一个标量函数的一阶导数信息的矩阵是梯度向量,包含标量函数对每个变量的偏导数。 对于一个标量函数 $f(x_1, x_2, \ldots, x_n)$,其梯度 $∇f(x)$ 定义为:
$$ ∇f(x) = \left[ \begin{array}{c} \frac{\partial f}{\partial x_1} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{array} \right] $$其中
- $∇f(x)$ 是一个列向量,包含函数 $f$ 对每个变量的偏导数。
雅可比矩阵 Link to heading
对于向量值函数 $\mathbf{f}(\mathbf{x}) = [f_1(\mathbf{x}), f_2(\mathbf{x}), \ldots, f_m(\mathbf{x})]$,其雅可比矩阵 $J$ 定义为:
$$ J = \left[ \begin{array}{ccc} \frac{\partial f_1}{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_n} \end{array} \right] $$其中
- $J_{ij} = \frac{\partial f_i}{\partial x_j}$,表示函数 $f_i$ 对 $x_j$ 的偏导数。
- 雅可比矩阵是一个 $m \times n$ 的矩阵,其中 $m$ 是函数 $\mathbf{f}$ 的输出维度,$n$ 是函数 $\mathbf{f}$ 的输入维度。