大家好,今天小编关注到一个比较有意思的话题,就是关于发散思维与创新思维论文的问题,于是小编就整理了1个相关介绍发散思维与创新思维论文的解答,让我们一起看看吧。
如何估算神经网络的最优学习率?
神经网络的神奇之处就是通过训练自动学习权重等参数。其中,学习率决定了这个自动学习的快慢,是神经网络的超参数(hyperparameter)。
具体而言,目前主流的神经网络模型使用梯度下降算法进行训练,或者说,学习参数。学习率决定了batch中权重在梯度方向上移动多远。理论上说,学习率越高,神经网络学习的速度就越快。但是,学习率过高,可能一下子“跨过”损失函数的最小值,导致无法收敛。
上图左侧为高学习率,右侧为低学习率,图片来源:Mikkel Duif (Quora)
那么,如何找到最佳学习率呢?
最容易想到的方法是,先从一个较高的学习率开始尝试,然后逐渐降低学习率。比如,刚开始是0.1,接着是0.01,然后是0.001,再然后是0.0001,以此类推。因为一般而言,刚开始的时候,网络的初始权重离最佳权重会比较远,随着训练的进行,渐渐逼近最佳值。用术语来说,这是模拟退火(Simulated annealing)方法。不过,这个方法的初始学习率设置(上面例子中的0.1)不能过高,如果初始学习率过高,那可能一下子“跨过”最佳值。
除此之外,还有另一种思路,就是反向操作,从一个很低的学习率开始,然后在每一个batch后增加学习率。比如,从0.00001开始,到0.0001,再到0.001,接着是0.01,然后是0.1。这种思路背后的直觉是,如果我们始终用一个很低的学习率进行学习,那么我们最终总能学习到权重的最佳值(除非整个网络架构有问题),只不过会很慢而已。因此,先从很低的学习率开始,能确定地观察到损失函数的下降。然后逐渐放大学习率,直到学习率过高导致发散。这个方法也避免了上面那个方法初始学习率过高一下子“跨过”最佳值的隐患。这是Leslie N. Smith在2015年的论文《Cyclical Learning Rates for Training Neural Networks》中提出的方法。
到此,以上就是小编对于发散思维与创新思维论文的问题就介绍到这了,希望介绍关于发散思维与创新思维论文的1点解答对大家有用。