梯度下降法学习笔记

前言

梯度下降法是一个经典的优化算法，在机器学习领域非常常见，很多机器学习算法最后都归结为求解最优化问题。在各种最优化算法中，梯度下降法是最简单、最常见的一种，在深度学习的训练中被广为使用。

梯度下降法(GD)

直观解释

通俗来说，梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在当前位置的导数。

讲到梯度下降法时，往往都会有这么一个例子：想象你站在山顶，现在你想以最快的速度下山，那么你肯定会选择最陡的路下山，走到一个位置，同样继续向着当前位置最陡峭的位置下山。简单来说，这就是所谓的梯度下降法。

但是你可能也想到了，这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处。

梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。当然，如果损失函数是凸函数，梯度下降法得到的解就一定是全局最优解。

理论推导

“沿着梯度的反方向（坡度最陡）”是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？

这里直接给出梯度下降算法的公式：

$\theta = \theta_0 - \eta \cdot \nabla f(\theta)$

如果你想要了解具体的理论推导，可以点击这里：为什么局部下降最快的方向就是梯度的负方向？

简单示例

让我们用一个具体的例子来进一步展示

假定目标函数 $f(x) = x^2$ ，我们希望得到 $f(x)$ 的最小值。

具体来说，我们让 $x$ 从 $x=10$ 开始迭代 10 次，设置 $\eta = 0.2$ ，观察 $x$ 的变化。

def gd(eta):
    x = 10
    results = [x]
    for i in range(10):
        x -= eta * 2 * x
        results.append(x)
    print('epoch 10, x = {}, f(x) = {}'.format(x, results[-1]))
    return results

results = gd(0.2)

epoch 10, x = 0.06046617599999997, f(x) = 0.06046617599999997

def show_trace(results):
    n = max(abs(min(results)), abs(max(results)))
    f_line = np.arange(-n, n, 0.01)
    plt.figure()
    plt.plot(f_line, [x**2 for x in f_line])
    plt.plot(results, [x**2 for x in results], '-o')
    plt.grid()
    plt.show()

show_trace(results)

学习率

学习率(learning rate)决定目标函数能否收敛到局部最小值，以及何时收敛到最小值

我们同样使用上面的例子

1
2
3

show_trace(gd(0.05))

show_trace(gd(1.1))

学习率 η = 0.05

学习率 η = 1.1

可以发现，不同学习率下的效果不尽相同：如果学习率太小，将导致 x 的更新非常缓慢；如果使用过高的学习率，则得到的解就会振荡，甚至可能发散。

多元梯度下降

在实际的应用场景中，我们面对的往往不是简单的一维情况，现实的问题往往是高维的。

现在我们考虑将 $x$ 拓展到 $x = [x_1, x_2, \dots, x_n]^T$

因此有

$\nabla f(x) = [\frac{\partial f(x)}{\partial x_1}, \frac{\partial f(x)}{\partial x_2}, \dots, \frac{\partial f(x)}{\partial x_n}]^T$

同样的，利用泰勒展开式可以得到：

$x = x_0 - \eta \cdot \nabla f(x)$

如果你想要了解具体的理论推导，可以点击这里：为什么局部下降最快的方向就是梯度的负方向？

假定目标函数 $f(x) = x^2 + 2y^2$ 。

$x$ 初始位置为 $[-5, -2]$ 迭代 20 次，设置 $\eta = 0.1$ ，观察 $x$ 的变化。

def train_2d(trainer, steps=20, f_grad=None):
    """用定制的训练机优化2D目标函数。"""
    # `s1` 和 `s2` 是稍后将使用的内部状态变量
    x1, x2, s1, s2 = -5, -2, 0, 0
    results = [(x1, x2)]
    for i in range(steps):
        if f_grad:
            x1, x2, s1, s2 = trainer(x1, x2, s1, s2, f_grad)
        else:
            x1, x2, s1, s2 = trainer(x1, x2, s1, s2)
        results.append((x1, x2))
    print(f'epoch {i + 1}, x1: {float(x1):f}, x2: {float(x2):f}')
    return results

def show_trace_2d(f, results):
    """显示优化过程中2D变量的轨迹。"""
    plt.figure()
    plt.plot(*zip(*results), '-o', color='#ff7f0e')
    x1, x2 = np.meshgrid(np.arange(-5.5, 1.0, 0.1),
                          np.arange(-3.0, 1.0, 0.1))
    plt.contour(x1, x2, f(x1, x2), colors='#1f77b4')
    plt.xlabel('x1')
    plt.ylabel('x2')

def f_2d(x1, x2):  # 目标函数
    return x1 ** 2 + 2 * x2 ** 2

def f_2d_grad(x1, x2):  # 目标函数的梯度
    return (2 * x1, 4 * x2)

def gd_2d(x1, x2, s1, s2, f_grad):
    g1, g2 = f_grad(x1, x2)
    return (x1 - eta * g1, x2 - eta * g2, 0, 0)

eta = 0.1
show_trace_2d(f_2d, train_2d(gd_2d, f_grad=f_2d_grad))