关键词:
概念图
跨语言信息检索
语义表征
相似度
语义检索
摘要:
传统的文本跨语言信息检索方法主要依赖于翻译技术,通过对源文本的翻译,在另一种语言环境中进行信息检索。近年来,基于语义的文本处理方法在很多自然语言处理领域中表现优秀。对此,本文研究了一种基于语义的文本跨语言信息检索的技术,本技术基于文本概念图实现跨语言检索,其中包括双语概念图的构建、双语概念图的向量化表示与检索。概念图的构建部分是对文本全文进行形式化表示,可以在大大压缩文本大小的情况下对文本中的重要信息进行保留。先利用融合Attention机制的LSTM网络,构造生成式摘要模型,对长文本进行自动摘要。该模型对全文中重要的概念和关系进行初步过滤。对摘要中的概念和关系进行简要的句法词性标注后,通过关系建立概念间链接,再通过边的扩展和融合方法对次重要关系进行消除,引入间接关系并保留重要关系,生成概念间的拓扑图结构。双语概念图的向量化表示与检索部分是对概念图进行向量空间嵌入,生成概念图在向量空间中的图级别标签,进而进行相似检索。通过对图结构和内容的融合嵌入,相似的跨语言概念图在嵌入后也表现为相似。本文提出了概念图的跨语言信息检索框架CG-CLIR框架,该框架融合了概念图中的上下文节点关系信息与概念图的结构信息,以Skip-gram与CBOW为语义支撑,将基于Gumbel分布的随机游走与LSTM网络结合,用于对双语概念图的语义表征,再通过全连接层抽取高阶语义表示,最后输出概念图的相似度得分,从而完成检索需求。本文就生成概念图的效果和概念图的跨语言检索分别设置了不同的实验,用于验证本文技术的可行性与优势。实验表明,基于关系融合的概念图构造和CG-CLIR在文本应用中的有效性,本文方法跨语言信息检索效果优于传统CLIR和基于本体的检索效果。