关键词:
序列生成
模型结构
常微分方程
多尺度建模
多模态
机器翻译
摘要:
序列生成任务是自然语言处理中最受瞩目的领域之一,尤其以机器翻译和近期的大语言模型最具代表性,受到了学术界和工业界的高度关注。序列生成是一种利用计算模型自动将源序列转换成目标序列的技术。随着互联网数据的爆炸性增长以及计算能力的快速提升,基于深度学习的序列生成模型已经成为了建模的主流手段。尤其是利用自注意力机制的Transformer模型,它在机器翻译等序列生成任务中作为基础模型,已在人工智能领域实现了显著的突破。神经网络的表示能力与其网络结构、参数规模和优化算法等因素紧密相关。更为复杂的神经网络,在有充足训练数据的情况下能够呈现出更强的性能。因此,如何提高模型的表示能力并保证模型的充分收敛,是本博士论文的重点研究课题。
通过前期的调研与探索,本文总结如下几点问题:标准Transformer模型得益于子层间的残差连接能够有效缓解梯度消散问题,但受限于残差连接的计算精度问题在多层堆叠的范式下仍存在较大的误差累积;其次,目前模型只是关注于单一输入文本尺度的编码,更复杂的多尺度建模方法能否带来性能提升仍亟待探索;最后,如何高效地建模多模态模型,为未来人工智能大一统做出探索同样是当下重点攻坚问题。考虑到以上挑战,本文致力于从结构的复杂性、交互的复杂性、输入模态的复杂性三个角度出发,打造面向序列生成任务的复杂神经网络建模方法,主要研究成果如下:
第一,为了提高模型参数学习的效率,本文提出了一种基于常微分方程高阶求解方法的ODE Transformer模型。该模型建立了 Transformer结构设计与数值方法之间的连接,即解决常微分方程问题中的一阶离散欧拉方法。针对一阶方法存在较大截断误差的问题,本文提出了利用高阶方法来减少多层Transformer模型的全局误差累积,从理论上保证了模型表示能力的下限,并通过更先进的高阶系数学习策略提高了模型的表示能力上限。在机器翻译、文本摘要、语法纠错等序列生成任务上,该模型能够以更少的网络深度获得显著的性能提升,大幅度提高了模型对参数的利用效率。
第二,为了提高神经网络内部计算效率,本文提出了一种多尺度Transformer模型,实现对输入粒度的解耦与尺度聚合。出发点在于Transformer的输入序列是包含子词和词的序列,但在网络的后续计算过程中并没有显性区分不同输入粒度之间的计算差异,造成了信息交互的冗余。本文首先提出了通用多尺度Transformer模型解耦了自注意力中不同尺度之间的冗余计算,通过建模子词、词与词组之间的尺度关系大幅度提高了网络计算的精度;更进一步,本文针对字符级序列建模冗长、耗时的问题提出了解决方案,采用基于快-慢分支的架构强化模型对更细粒度表示的感知。上述方法在机器翻译、文本摘要等任务上获得了一致性的性能提升。
第三,为了实现复杂多模态序列生成模型的统一建模,本文提出了一种基于可选择注意力的Transformer-only多模态统一模型,使用基于Vision Transformer的方法提取视觉特征,代替传统的卷积神经网络。多模态翻译建模作为自然语言处理与计算机视觉的交叉研究领域近年来备受关注,现有研究更多关注如何融合跨模态的特征,更好的视觉特征是否能够提高多模态翻译的性能却鲜有研究。本文从统一建模的角度出发,验证了这种方法是否能提升多模态翻译性能,并设计了文本限制场景测试模型对视觉特征的充分利用。实验结果在多模态翻译数据集上显示了多项指标的提升,为多模态领域的统一建模提供新思路。
最后,本文基于以上研究成果针对复杂网络建模的高效性进行改进,分别从架构、训练与推断3个方面进行完善。在架构方面,提出了基于矩阵分解的参数高效方法进一步减少网络参数的冗余;在训练方面,提出了基于由浅入深的深层网络训练加速方法,在无损性能的条件下加速训练40%-60%;在推断方面,提出了深层编码器-浅层解码器的异构网络,实现模型性能与推断时延之间的平衡。上述方法有利于将理论创新方法更好地投入到实际的工业生产环境中,在小牛翻译的机器翻译产品中进行了实践,验证了方法的有效性。