关键词:
信息检索
开放域问答
机器阅读理解
检索排序
知识增强
摘要:
开放域机器阅读理解因其可以直接返回自然语言形式的答案而非相关文档列表,从而大幅提升信息获取效率,被认为是信息检索领域继搜索引擎之后的新一代人机交互关键技术。目前开放域机器阅读理解分为端到端方法和检索-阅读两阶段方法。其中端到端方法对检索器和阅读器联合训练以简化系统结构,但端到端训练机制需要大量标注数据,代价过高导致其发展受限。而检索-阅读两阶段方法包含答案相关上下文检索器和文档阅读器两部分,两阶段串行运行,两部分独立训练,相较端到端方法更为灵活,且可在系统中使用最先进的检索器和最先进的阅读器共同优化结果,因此论文选择使用检索-阅读两阶段方法来解决开放域机器阅读理解问题。主要工作如下:(1)提出了一种融合排序学习和预训练语言模型的排序方法PWFT-BERT。在检索阶段,当前表现较好的检索模型往往应用以空间换时间机制,即需要耗费大量的内存去存储索引以便实现快速检索。针对这一问题,围绕在低机器成本下构建兼具速度与性能的信息检索模型,论文提出了一种融合排序学习和预训练语言模型的排序方法PWFT-BERT,并提出一种伪负例样本快速生成算法用于增强训练数据。PWFT-BERT应用于IF-IDF或BM25等检索算法召回得到的文档列表,从而在不需要耗费大量机器内存的情况下巧妙地平衡了检索速度和精度,在海量论文数据集WSDM-Digg Sci 2020上的测试结果验证了所提算法的有效性。(2)提出了一种知识增强的长文档机器阅读理解模型KLMRC。在阅读阶段,针对机器阅读理解模型目前普遍存在不能有效利用外部知识和无法有效处理长文档等两方面问题,设计了一种能够方便快捷融入外部结构化知识,且同时能处理长文本的机器阅读理解模型KLMRC。为了有效融入外部知识,模型内部首先在匹配层进行相关知识检索,进而在知识聚合层采用树形结构将三元组拼接在原本的文本上。其次,模型在编码层使用全局注意力和软位置编码对融入外部知识的文本进行编码,并将词嵌入传入交互层后在交互层将问题与知识增强后的文本进行信息交互。最后,输出层预测每个字为答案起始位置的概率,并据此抽取答案。实验在中文领域典型的长文档阅读理解数据集Du Reader2.0上验证了KLMRC相比其他方法的优越性。(3)设计并实现了一个面向海量文档的中文开放域问答系统。基于上述模型方法,论文将两个阶段所提算法联合应用于面向海量文档的中文开放域问答系统。与使用搜索引擎进行信息检索返回文档列表不同,系统直接返回用户问题的答案,并一同展示答案的抽取来源,在有效提升信息检索效率的同时也保证了检索结果的可信度。