发散思维与创新思维论文,发散思维与创新思维论文怎么写-保客创业启示录

大家好，今天小编关注到一个比较有意思的话题，就是关于发散思维与创新思维论文的问题，于是小编就整理了1个相关介绍发散思维与创新思维论文的解答，让我们一起看看吧。

如何估算神经网络的最优学习率？

如何估算神经网络的最优学习率？

神经网络的神奇之处就是通过训练自动学习权重等参数。其中，学习率决定了这个自动学习的快慢，是神经网络的超参数（hyperparameter）。

具体而言，目前主流的神经网络模型使用梯度下降算法进行训练，或者说，学习参数。学习率决定了batch中权重在梯度方向上移动多远。理论上说，学习率越高，神经网络学习的速度就越快。但是，学习率过高，可能一下子“跨过”损失函数的最小值，导致无法收敛。

（图片来源网络，侵删）

上图左侧为高学习率，右侧为低学习率，图片来源：Mikkel Duif (Quora)

那么，如何找到最佳学习率呢？

最容易想到的方法是，先从一个较高的学习率开始尝试，然后逐渐降低学习率。比如，刚开始是0.1，接着是0.01，然后是0.001，再然后是0.0001，以此类推。因为一般而言，刚开始的时候，网络的初始权重离最佳权重会比较远，随着训练的进行，渐渐逼近最佳值。用术语来说，这是模拟退火（Simulated annealing）方法。不过，这个方法的初始学习率设置（上面例子中的0.1）不能过高，如果初始学习率过高，那可能一下子“跨过”最佳值。

（图片来源网络，侵删）

除此之外，还有另一种思路，就是反向操作，从一个很低的学习率开始，然后在每一个batch后增加学习率。比如，从0.00001开始，到0.0001，再到0.001，接着是0.01，然后是0.1。这种思路背后的直觉是，如果我们始终用一个很低的学习率进行学习，那么我们最终总能学习到权重的最佳值（除非整个网络架构有问题），只不过会很慢而已。因此，先从很低的学习率开始，能确定地观察到损失函数的下降。然后逐渐放大学习率，直到学习率过高导致发散。这个方法也避免了上面那个方法初始学习率过高一下子“跨过”最佳值的隐患。这是Leslie N. Smith在2015年的论文《Cyclical Learning Rates for Training Neural Networks》中提出的方法。

到此，以上就是小编对于发散思维与创新思维论文的问题就介绍到这了，希望介绍关于发散思维与创新思维论文的1点解答对大家有用。