梯度消失详解

张一风2025年1月15日大约 4 分钟

梯度消失问题在深层神经网络中尤为常见，尤其是在使用Sigmoid或Tanh等激活函数时。下面通过一个简单的实例来说明梯度消失的现象。

假设我们有一个非常简单的神经网络，结构如下：

每层的激活函数为 Sigmoid，权重和偏置随机初始化。

输入层 (x) → 隐藏层1 (h1) → 隐藏层2 (h2) → 隐藏层3 (h3) → 输出层 (y)

Sigmoid 函数的公式为：

σ (z) = \frac{1}{1 + e^{- z}}

其导数为：

σ^{'} (z) = σ (z) \cdot (1 - σ (z))

Sigmoid 函数的导数最大值为 0.25（当 $z = 0$ 时），且随着 $| z |$ 增大，导数趋近于 0。

假设我们使用均方误差（MSE）作为损失函数：

L = \frac{1}{2} (y_{true} - y_{pred})^{2}

在反向传播过程中，梯度从输出层向输入层传递。以隐藏层1的梯度为例：

\frac{\partial L}{\partial h_{1}} = \frac{\partial L}{\partial h_{3}} \cdot \frac{\partial h_{3}}{\partial h_{2}} \cdot \frac{\partial h_{2}}{\partial h_{1}}

每一层的梯度计算都涉及 Sigmoid 函数的导数：

\frac{\partial h_{i}}{\partial h_{i - 1}} = σ^{'} (z_{i}) \cdot w_{i}

其中 $z_{i}$ 是第 $i$ 层的输入， $w_{i}$ 是第 $i$ 层的权重。

由于 Sigmoid 函数的导数 $σ^{'} (z_{i})$ 最大为 0.25，且随着层数增加，梯度会不断缩小：

\frac{\partial L}{\partial h_{1}} = \frac{\partial L}{\partial h_{3}} \cdot σ^{'} (z_{3}) \cdot w_{3} \cdot σ^{'} (z_{2}) \cdot w_{2} \cdot σ^{'} (z_{1}) \cdot w_{1}

如果权重 $w_{i}$ 较小（例如 $w_{i} < 1$ ），梯度会进一步缩小，导致：

\frac{\partial L}{\partial h_{1}} \approx 0

ReLU（Rectified Linear Unit）激活函数可以有效避免梯度消失问题，主要原因在于它的导数特性以及它对梯度传播的影响。

ReLU 的定义为：

ReLU (z) = max (0, z)

其导数为：

{ReLU}^{'} (z) = {\begin{cases} 1 & if z > 0 \\ 0 & if z \leq 0 \end{cases}

相比之下，Sigmoid 的导数最大为 0.25，且随着输入值的增大或减小，导数会迅速趋近于 0，导致梯度消失。

在反向传播过程中，梯度是通过链式法则逐层传递的。假设我们使用 ReLU 激活函数，梯度计算如下：

对于第 $i$ 层：

\frac{\partial h_{i}}{\partial h_{i - 1}} = {ReLU}^{'} (z_{i}) \cdot w_{i}

如果 $z_{i} > 0$ ，则 ${ReLU}^{'} (z_{i}) = 1$ ，因此：

\frac{\partial h_{i}}{\partial h_{i - 1}} = w_{i}

梯度的大小主要取决于权重 $w_{i}$ ，而不会因为激活函数的导数而缩小。如果权重 $w_{i}$ 初始化合理（例如使用 He 初始化），梯度可以稳定地传播到浅层。

在 ReLU 的情况下：

假设我们使用 ReLU 激活函数替换 Sigmoid，重新计算梯度：

对于隐藏层1的梯度：

\frac{\partial L}{\partial h_{1}} = \frac{\partial L}{\partial h_{3}} \cdot {ReLU}^{'} (z_{3}) \cdot w_{3} \cdot {ReLU}^{'} (z_{2}) \cdot w_{2} \cdot {ReLU}^{'} (z_{1}) \cdot w_{1}

如果每一层的输入 $z_{i} > 0$ ，则 ${ReLU}^{'} (z_{i}) = 1$ ，因此：

\frac{\partial L}{\partial h_{1}} = \frac{\partial L}{\partial h_{3}} \cdot w_{3} \cdot w_{2} \cdot w_{1}

梯度的大小主要取决于权重 $w_{i}$ ，而不会因为激活函数的导数而缩小。如果权重初始化合理，梯度可以稳定地传播到浅层，避免了梯度消失问题。