求梯度公式证明

这里我相信题主对梯度下降法的整体理念是认可的，只是不清楚这个更新公式的实质含义。

首先这个梯度更新公式确实不是推导而是创造出来的，所以只能从概念上去理解。

设想下有个函数，你的目标是：找到一个参数使得它的值最小。但它很复杂，你无法找到这个参数的解析解，所以你希望通过梯度下降法去

猜这个参数

。问题是怎么猜？

对于多数有连续性的函数来说，显然不可能把每个都试一遍。所以只能先随机取一个，然后看看怎么调整它最有可能使得变小。把这个过程重复n遍，自然最后得到的的估值会越来越小。

现在问题是怎么调整？既然要调整，肯定是基于当前我们拥有的那个参数，所以有了：

那现在问题是每次更新的时候这个应该取什么值？

我们知道

关于某变量的（偏）导数的概念是指当（仅仅）该变量往正向的变化量趋向于0时的其函数值变化量的极限。

所以现在若求关于的导数，得到一个值比如:5,那就说明若现在我们把往正向（即增大）一点点，的值会变大，但不一定是正好+5。同理若现在导数是-5，那么把增大一点点值会变小。这里我们发现

不管导数值是正的还是负的（正负即导数的方向），对于来说，的最终方向（即最终的正负号，决定是增（+）还是减（-））一定是能将Y值变小的方向（除非导数为0）。

所以有了:

但是说到底，的绝对值只是个关于Y的变化率，本质上和没关系。所以为了抹去在幅度上对的影响，需要一个学习率来控制：。所以有了：

而这里的就是你1式中的那个偏导，而对于2式，就是有多少个参数，就有多少个不同的。

现在分析在梯度下降法中最常听到的一句话：

“

梯度下降法就是朝着梯度的反方向迭代地调整参数直到收敛。

”

这里的梯度就是 ,而梯度的反方向就是的符号方向---梯度实际上是个向量。所以这个角度来说，即使我们只有一个参数需要调整，也可以认为它是个一维的向量。

整个过程你可以想象自己站在一个山坡上，准备走到山脚下（最小值的地方），于是很自然地你会考虑朝着哪个方向走，方向由

的

方向给出，而至于一次走多远，由来控制。这种方式相信你应该能理解其只能找到局部最小值，而不是全局的。

参考：

[机器学习] ML重要概念：梯度（Gradient）与梯度下降法（Gradient Descent）

五步解析机器学习难点—梯度下降。

问答网