梯度消失和梯度爆炸

梯度消失和梯度爆炸是深度学习中常见的两个问题，特别是在深层神经网络中。它们都与网络中的梯度有关，这些梯度在反向传播过程中可能会变得非常小（梯度消失）或非常大（梯度爆炸）。

问题描述：在反向传播过程中，梯度可能会变得非常小，以至于权重几乎不更新。这意味着网络的前面几层可能很难学习。

原因：

图示：为了直观地理解这个问题，我们可以绘制Sigmoid函数及其导数的图形。在以下的图中，蓝色曲线表示Sigmoid函数，而橙色曲线表示其导数：

上图显示了sigmoid函数及其导数。注意当输入值远离0时，导数（梯度）接近0。

例子：考虑一个深层网络，其中每一层都使用 sigmoid 激活函数。在反向传播时，每一层的梯度都会与sigmoid的导数相乘。由于 sigmoid 的导数最大值为0.25，多层的连续乘积会导致非常小的梯度。

问题描述：在反向传播过程中，梯度可能会变得非常大，导致权重更新过大。这可能会导致模型不稳定，权重可能会变得非常大，或者模型可能会发散。

原因：

图示：考虑一个简单的情况，其中每一层的梯度都是2。在一个深层网络中，反向传播的梯度会是 $2^{\text{number of layers}}$ ，这可能会变得非常大。

例子：考虑一个深层网络，其中每一层的权重都初始化为大于1的值。在反向传播时，每一层的梯度都会与这些大的权重相乘，导致梯度爆炸。

总的来说，梯度消失和梯度爆炸都是深度学习中的常见问题，但有多种方法可以缓解或解决这些问题。