关键词:
神经机器翻译
多模态机器翻译
多模态翻译数据构建
图文注意力机制
摘要:
神经机器翻译(Neural Machine Translation,NMT)是自然语言处理领域的一个非常重要的分支,它旨在使用计算机程序自动完成人类语言的翻译。多模态神经机器翻译(Multimodal Neural Machine Translation,MNMT)是机器翻译研究领域中一个比较新颖和有趣的研究分支,其主要思想为在神经机器翻译模型中加入图像信息以辅助生成翻译结果。近年来,已有大量的实验表明,图像信息能够帮助神经机器翻译模型产生更加准确的翻译结果。
然而,这些结论大多都来自一个公开的多模态机器翻译语料库Multi30K,这个语料库包含了29000条双语平行数据,并且人工的为其中每一个平行语料挑选了一张与之匹配的图像。对于多模态机器翻译而言,这个数据存在着诸多缺陷:(1)Multi30K数据集中构成文本数据的单词大多都是日常生活中频繁出现和使用的,对于机器翻译模型来讲并不具有太高的难度,也就更难体现多模态机器翻译模型的优势;(2)Multi30K数据集中与文本搭配的图像所描绘的内容较为单一,很难验证复杂图像在神经机器翻译模型中产生的效果;(3)Multi30K数据集中针对每一组文本语料搭配的图像信息是经过人工精心挑选出来的,和文本内容的匹配度极高,在此理想状态下的数据集中得出的实验结论较难将多模态机器翻译模型的优势推广到更多更复杂的应用场景中,因为在更多情况之下,图文的匹配关系多是较为模糊的,甚至在图像中很可能包含着部分噪声信息干扰翻译模型。因此,针对以上情况,本文的主要工作和贡献包含了以下几个部分:
第一,针对现有的多模态机器翻译数据集的问题。本文提出一种通用的多模态图像数据构建方法,该方案能够通过搜索引擎图像检索功能为机器翻译数据集扩充丰富的图像信息,多模态机器翻译的实验与研究将不再被局限于现有的Multi30K数据集之中。面对该方法获得的图像信息,其中不可避免的存在着噪声,文本对此进一步提出基于文本注意力机制的图像信息过滤网络,该网络结构在多模态机器翻译模型中经过验证能够有效的避免噪声图像对翻译模型的影响。
第二,通过实验发现上述多模态图像数据构建方法对于图像噪声较为敏感。对于图像噪声的过滤问题,本文将目标检测任务融合注意力机制用于图像噪声的过滤,相比于基于文本信息的图像噪声过滤网络,目标检测模型的先验知识能够一定程度上对图像重要区域进行筛选,不再完全依赖注意力网络,实验证明该方法能够更有效的抑制图像噪声对翻译模型的干扰。