关键词:
随机梯度下降
拟双曲动量
常微分方程
收敛性
摘要:
最优化问题是计算数学中最为重要的研究方向之一。而在深度学习领域,优化算法的选择也是一个模型的重中之重。即使在数据集和模型架构完全相同的情况下,采用不同的优化算法,也很可能导致截然不同的训练效果。随机梯度下降算法(SGD)在神经网络模型训练中是一种很常见的优化算法,然而,SGD算法的高方差振荡使得网络很难稳定收敛。拟双曲动量算法(QHM)是基于动量的SGD的一种简单的变换,其更新可以看作动量项与SGD更新的加权平均,该算法对于减小方差具有很好的效果。然而,目前仅在强凸条件下对QHM算法收敛性进行了分析。但在实际应用中,目标函数往往非凸,因此QHM算法在非凸情况下的收敛性分析就有了其理论价值和现实意义。将离散随机系统近似为确定的连续随机系统是ODE方法的思想,本文将基于ODE方法,在目标函数可微且非凸的条件下,给出离散随机优化算法SGD和QHM的收敛性分析。我们首先引入了 SGD算法的一个连续时间版本,其形式为一个常微分方程。其次,我们证明了该常微分方程解的存在性和唯一性,以及该解收敛到目标函数的临界点。接下来,确定了由SGD迭代得到的插值过程弱收敛到相应常微分方程的解。最后,得到了 SGD迭代到目标函数临界点的长期收敛性。对于QHM算法,我们经过同样的步骤进行收敛性分析。与SGD算法相同,引入了 QHM算法的连续时间版本,得到了更加复杂的常微分方程。我们确定了该方程解的存在性、唯一性以及到目标函数临界点的收敛性。在确定了 QHM迭代相应的插值过程弱收敛到其常微分方程解的基础上,得到了 QHM迭代到目标函数临界点的收敛性。