关键词:
神经机器翻译
Transformer模型
注意力机制
可解释性
词性信息
依存关系
句法树
摘要:
随着深度学习的发展,神经机器翻译模型在各种翻译任务上都取得了卓越的表现,但由于模型参数规模庞大、结构复杂、自然语言在模型内部以不可理解的数字形式传递等原因,神经机器翻译模型仍是“黑箱”模型,其内部工作机制尚无法被直观理解,这导致了难以在原有模型的基础上进一步提升翻译质量等问题。因此,神经机器翻译的可解释性工作具有较大研究价值。为了进一步增进对神经机器翻译工作机制的认识,本工作以目前使用最广泛的Transformer神经翻译模型作为研究对象,从语言学知识的角度,以词性信息、依存关系、句法分析为代表,分析了Transformer翻译模型内部注意力节点在翻译过程中对于处理单个词信息、词间关系信息和句子整体句法结构的作用,将人类不可理解的神经机器翻译模型与可理解的语言学知识建立起联系,更直观地解释了神经翻译模型内部模块在翻译中的工作机制。本论文提出了三种衡量节点对于语言学信息的贡献程度的指标,定量计算了节点在翻译过程中的作用,并通过屏蔽模型中各语言学知识相关的负作用节点,在原有模型的基础上进一步提升了模型的翻译性能。针对神经机器翻译模型的可解释性研究,本论文主要完成了以下研究工作:(1)词性信息在神经机器翻译过程中的作用分析。本论文提出了一种基于词性信息的神经机器翻译的可解释性研究方法。针对难以理解注意力节点在翻译过程中如何处理单个词信息的问题,本论文提出了一种基于词性信息的研究方法,通过屏蔽节点前后译文的变化情况来定量计算节点在翻译过程中对于词性信息的贡献程度。针对传统可解释性研究主要集中在源语言输入的问题,本论文提出的方法可以更好地分析翻译模型内各模块对模型输出译文的作用和影响情况,更好地将可解释性研究和模型的翻译性能建立起联系。本论文提出了一种屏蔽对于词性信息具有负面作用节点的方法,在原有模型的基础上进一步提高了模型的翻译性能,在newstest2020-deen测试集上提升BLEU值1.68。(2)依存关系在神经机器翻译过程中的作用分析。本论文提出了一种基于依存关系的神经机器翻译的可解释性研究方法。针对难以理解注意力节点如何处理词间关系和短语句法的问题,本论文提出了一种基于依存关系的解释方法,分析了屏蔽节点对于各类依存关系及其对应单词组合的翻译准确率的影响情况,定量计算了各注意力节点对于不同依存关系信息的贡献程度,分析了神经机器翻译模型各模块在翻译过程中对于处理词间关系的工作机制,以及模型中不同注意力节点贡献程度的差异和分布规律。本论文提出一种基于屏蔽依存关系相关负作用节点的方法,可以在原有模型的基础上进一步提升翻译性能,在newstest2020-deen测试集上提升BLEU值1.18。(3)句法树在神经机器翻译过程中的作用分析。针对难以理解注意力节点如何处理句子整体句法结构的问题,本论文提出了一种基于句法树分析的神经机器翻译的可解释性研究方法,分析了各注意力节点在翻译过程中对于正确构造句子整体句法结构的贡献情况,并探索了注意力节点贡献程度的分布规律。本论文根据各节点对于句法树信息的贡献程度,提出一种基于屏蔽句法结构相关负作用节点的翻译性能提升方法,在newstest2020-deen测试集上提升BLEU值1.09。