这里我相信题主对梯度下降法的整体理念是认可的,只是不清楚这个更新公式的实质含义。
首先这个梯度更新公式确实不是推导而是创造出来的,所以只能从概念上去理解。
设想下有个函数,你的目标是:找到一个参数 使得它的值 最小。但它很复杂,你无法找到这个参数的解析解,所以你希望通过梯度下降法去
猜这个参数
。 问题是怎么猜?
对于多数有连续性的函数来说,显然不可能把每个 都试一遍。所以只能先随机取一个 ,然后看看怎么调整它最有可能使得 变小。把这个过程重复n遍,自然最后得到的 的估值会越来越小。
现在问题是怎么调整?既然要调整,肯定是基于当前我们拥有的那个参数 ,所以有了:
那现在问题是每次更新的时候这个 应该取什么值?
我们知道
关于某变量的(偏)导数的概念是指当(仅仅)该变量往正向的变化量趋向于0时的其函数值变化量的极限。
所以现在若求 关于的导数,得到一个值比如:5,那就说明若现在我们把 往正向(即增大)一点点, 的值会变大,但不一定是正好+5。同理若现在导数是-5,那么把 增大一点点 值会变小。 这里我们发现
不管导数值 是正的还是负的(正负即导数的方向),对于 来说, 的最终方向(即最终的正负号,决定是增(+)还是减(-))一定是能将Y值变小的方向(除非导数为0)。
所以有了:
但是说到底, 的绝对值只是个关于Y的变化率,本质上和 没关系。所以为了抹去 在幅度上对 的影响,需要一个学习率来控制: 。所以有了:
而这里的 就是你1式中的那个偏导,而对于2式,就是有多少个参数,就有多少个不同的 。
现在分析在梯度下降法中最常听到的一句话:
“
梯度下降法就是朝着梯度的反方向迭代地调整参数直到收敛。
”
这里的梯度就是 ,而梯度的反方向就是 的符号方向---梯度实际上是个向量。所以这个角度来说,即使我们只有一个参数需要调整,也可以认为它是个一维的向量。
整个过程你可以想象自己站在一个山坡上,准备走到山脚下(最小值的地方),于是很自然地你会考虑朝着哪个方向走,方向由
的
方向给出,而至于一次走多远,由 来控制。 这种方式相信你应该能理解其只能找到局部最小值,而不是全局的。
参考:
[机器学习] ML重要概念:梯度(Gradient)与梯度下降法(Gradient Descent)
五步解析机器学习难点—梯度下降。