关键词:
知识图谱问答
信息检索
知识图谱表示学习
问答系统
摘要:
知识图谱问答是给定自然语言问句,解析并分析其语义特征,在知识图谱上推理并返回最终答案的任务。在现有知识图谱问答的前沿研究中,基于信息检索的方法作为实现知识图谱问答极为重要的研究方向,受到研究者们广泛关注。该方法继承于信息检索系统的实现思路,即将问答建模为检索答案的过程,因此被研究者们推广为一类主要的研究方法。基于信息检索的知识图谱问答方法主要分为实体召回,实体表征以及实体选择三个模块。该方法首先利用问句中的语义信息实体或关系从图谱中召回候选答案实体,进而对实体进行表征,最后通过排序方法从中选择最终答案。尽管现有基于信息检索的知识图谱问答方法已经取得了一定进展,但其对复杂问句的求解仍然存在挑战。本文对基于信息检索的知识图谱问答方法展开研究,主要针对实体表征以及实体选择。本文的主要内容包括:(1)基于多重嵌入表示融合的知识图谱实体表征学习方法知识图谱实体表征学习旨在利用表征学习方法将图谱中所有实体节点或关系的事实语义映射到一个低维连续空间上。本项研究提出利用知识图谱中实体和关系的外部文本,在语义层面上对实体自身的信息进行补充,同时结合三元组的空间邻接特征,更好的学习实体和关系的表示。一个充分学习的知识图谱表示学习模型,能够在复杂知识图谱问答实现中对候选实体的建模提供帮助,同时也有利于知识图谱补全等优化知识图谱自身数据的工作。本文为中文知识图谱表征学习任务构建了新数据集,并在该数据集上将本文的方法与主要表示学习方法进行比较,实验结果表明本文所提方法的有效。同时本文设计了基于知识图谱表征学习的知识图谱问答方法,在公开的中文问答数据集上与多个表征学习方法进行了对比实验,说明了本方法对实体表征的有效性。(2)基于知识图谱全局和局部特征的实体选择方法本项研究主要目标为加强对知识图谱复杂问答的解决,为此,我们一方面提出方法加强了知识图谱实体的表征学习,同时提出了新的实体选择方法。针对实体表征,本文提出利用嵌入表示技术提取知识图谱整体的拓扑结构和语义特征作为候选实体节点的全局特征,根据实体表示和问句表示将复杂问答建模为复合的三元组分类任务。同时,将图谱在搜索过程生成的核心推导路径作为局部特征,结合问句的语义相似性来构建候选实体不同维度特征,最终形成混合特征评分器。而对于实体选择,由于最终推理路径可能缺失,本文采用基于无监督的多重聚类方法设计了聚类器模块。进而根据候选实体的两类特征表示直接生成最终答案簇,这使得非完全知识图谱问答成为可能。在两个常见的英文知识图谱问答数据集以及一个中文知识图谱问答数据集上的结果表明,该方法能有效的帮助复杂问句的解决,特别是在图谱知识不完全的情况下也具备非常好的效果。(3)基于信息检索的知识图谱问答系统的实现本项研究结合前两点的研究,针对当前知识图谱问答对复杂问句解决有限的问题,实现了一个基于信息检索的知识图谱问答系统。该系统包含实体链接、实体召回、实体表征、实体选择等模块。其中,实体链接为问答实现的前序模块,其和实体召回采用了成熟的业界方法实现,而实体表征和实体选择模块则基于本文方法实现。系统内各模块经过测试并以上线,供用户获取所需的信息。综上,本文首先为知识图谱问答任务提出一种知识图谱实体表示学习的方法来更好的获取知识图谱的实体表征,并通过链接预测实验和问答实验说明该方法的有效性。其次本文研究了基于知识图谱全局和局部特征的实体选择方法,结合表示学习和语义解析方法提高了对复杂问句的解决。最后本文设计并构建了基于信息检索的知识图谱问答系统。