关键词:
BM25
文本信息查询
分布式词向量
分布式段向量
CBOW模型
Skip-Gram模型
摘要:
随着互联网的普及与计算技术的飞速发展,网络海量信息数据处理是当今大数据处理的重要研究课题。人们不仅在网络中发布和获取信息,更重要的是利用网络信息数据带来日常生活的便利,并产生新的经济效益和社会效益。文本海量数据的处理与利用已得到越来越广泛的重视,具有广阔的应用前景。文本信息检索的数据分为结构化和非结构化两类,经典的文本检索模型有:基于集合论的布尔模型、基于代数学的向量空间模型、基于概率统计的概率模型和基于统计的机器学习模型等。这些文本检索模型依照用户查询,对文档集合中的文档计算查询匹配分数并进行相关排序、形成查询结果。随着文本信息量的增加,传统的文本信息检索技术在查询结果的精确匹配、检索效率与性能方面是有限的。当今文本信息检索任务需要分析处理越来越复杂、越来越繁重的文本数据,对准确、高效的文本信息检索技术的研究有更高要求和期待。因此,本文研究经典文本检索模型的改进与优化、研究基于深度学习的分布式向量化技术,相关的研究成果有重要的理论意义和应用价值。本文的主要工作和成果如下:1.针对BM25及其改进模型客观存在的语义缺失现象,在Markov随机场(MRF)模型和Lkp模型的基础上,提出了一种改进的用于文本高阶相似查询结果计算的分数模型,实验对比分析了改进模型与原有模型的在查询分数计算时的不同,显示了改进模型在评分函数体现高阶相似查询性能上的优势。2.针对文本信息的行文习惯,主题句一般出现在文档的首尾部分,为此引入了基于区间树的分数度量机制,将区间树分数度量分别与Score Comp模型和Freq Comp模型相结合,提出了基于区间树的文本查询分数计算模型。实验结果对比分析了基于区间树的Score Comp模型与基于区间树的Freq Comp模型在查询分数计算的差异,基于区间树的Score Comp模型表现了对词项之间更敏感的语义关联。3.针对分布式词向量学习时间长的问题,在n-gram模型、CBOW词向量模型、Skip-Gram词向量模型、层次Softmax模型的基础上,建立了一种查询优化策略,提出了一种扩展的分布式词向量的优化模型,实验结果表明新的分布式词向量生成优化模型CBOW-OR或Skip Gram-OR模型间接表现出的词对间的语义关联比CBOW和Skip-Gram模型更合理。4.针对经典的分布式段向量构造算法存在盲目学习的问题,提出了一种基于CBOW与CNN结合的段向量深度学习方法,实验结果表明结合CBOW模型和CNNs模型生成的段向量比CBOW模型获得的段向量在表达段落主题方面更合理。