关键词:
深度学习
网络结构
优化器
常微分方程
循环神经网络
摘要:
在深度学习中,输入数据流经神经网络并产生输出。神经网络可以被视为一个动态系统,而常微分方程(Ordinary differential equation,ODE)可以用以描述动态系统的行为。这表明了深度学习和ODE之间存在联系,可以根据ODE领域里的理论基础对深度学习中的问题进行分析。基于此,本文从深度学习与ODE之间的联系出发,针对深度学习中的优化器和神经网络的结构进行研究,主要开展了以下三方面的工作。首先,优化器对于神经网络的精度、泛化性和鲁棒性等有着重要的影响,对优化器的研究是神经网络中的热点内容。本文采用三阶拉格朗日型离散公式对随机梯度下降(Stochastic gradient descent,SGD)优化器进行改进。从数值方法的角度考虑,SGD优化器的迭代公式可以被理解为前向欧拉方法的离散形式。考虑到前向欧拉方法的截断误差较大,本文随采用精度更高的三阶拉格朗日型离散公式以改进SGD优化器,并提出三阶拉格朗日型随机梯度下降(Lagrange-type stochastic gradient descent,LSGD)优化器。然后,将 LSGD 优化器应用在图像识别上任务对其性能进行评估,实验结果表明LSGD优化器无法收敛。最后,采用零稳定性和一致性分析了 LSGD优化器不能收敛的原因,解释了实验结果,为下一章研究内容奠定基础。随后,基于第二章的研究内容,本文采用符合零稳定性和一致性的高阶离散公式以改进SGD优化器,提出了高阶随机梯度下降优化器(High-order stochastic gradient descent,HSGD),并从数学角度证明了 HSGD的收敛性。紧接着,在中英文文本分类和图像识别任务上对HSGD优化器的性能进行评估。实验结果表明了 HSGD相较于SGD具有较高的性能提升,验证了从数值方法角度改进优化器的可行性和优越性。最后,本文从神经网络结构与ODE的离散化之间的关系出发,将传统的循环神经网络(Recurrent neural network,RNN)的网络结构是视为前向欧拉方法的离散形式。基于这种关联,本文在精度更高的三阶泰勒型离散方法的基础上提出泰勒型循环神经网络(Taylor-type recurrent neural network,T-RNN)模型。随后,在情感分类、文本分类和统计语言模型多个自然语言处理任务(Natural language processing,NLP)任务上验证了 T-RNN相对于RNN性能的提升。此外,针对深度学习实验中出现的实验现象,本文构建了数值实验对离散公式的特性进行分析,进一步印证了神经网络与ODE之间的联系。