关键词:
信息检索
文本检索
XML
互关联后继树
双排序后继树
概念检索
摘要:
信息检索(Information Retrieval,IR)相关技术是当前最为活跃的研究领域之一,它指的是对信息项进行表示、组织、存贮和查询。借助于计算机和网络等信息技术,如今人们已经能够快速有效的检索到所需的大量信息,但是,随着信息时代的发展,信息总量进一步增长,如何按照给定的性能指标在新的信息总量上更准确的找到所需要的信息,这是摆在研究者面前的一个问题。
现代信息检索均以一定的模型或者索引机制作为基础。本文在信息检索模型一互关联后继树一的基础上,提出了若干算法模型以期达到更好的检索性能,并使之适用于一些新的应用领域。
本文前面部分总结了互关联后继树本身的模型和特点。为了进一步提高模型的检索速度,本文提出在二元后继树的基础上提高排序程度,从而得到了双排序后继树(Double Order Successive Tree,DOST)。然后本文进一步讨论了该模型与pat数组结构的关系,从而进一步奠定了互关联后继树体系在信息检索方面的理论基础。作为文本检索和XML检索的共同的基础,二元后继树模型对于支持无结构和半结构化数据检索意义重大。因此本文对围绕该模型的一系列问题进行了进一步研究,本文讨论了分库合库算法,模型增量修改,压缩编码等算法问题及相应措施。
近年来,以XML为代表的半结构化数据相关应用得到迅速发展。如何利用半结构化数据中现有的结构信息优化检索以及如何进行半结构化数据中的全文信息进行综合查询,这是信息检索领域面临的新问题。本文讨论了将二元后继树引入XML索引领域得到的半结构化信息检索模型—Xistree—的基本性质和相关算法。文中在实现Xistree模型的基础上,首先与XISS进行了对比实验,然后与有名的Native XML DB实用系统Timber和XIndice进行了对比实验。结果表明,本系统在大数据集下,对于已知路径模式的简单查询和分支算法的性能都取得了非常好的成果。
将文本等无结构化数据的检索转化为半结构化检索问题从而最终实现基于语义的检索是当前研究者们努力的一个方向,因此基于概念语义的半结构化信息检索受到人们的普遍关注的信息检索新领域。如何更准确的度量用户需求和数据之间的关系,更高效的返回结果从而提高用户的搜索体验,将成国未来的研究发展进一步需要解决的问题。在本文中,主要针对半结构化数据中的概念检索问题,提出了概念语义模型构建的基本思想以及概念语义相关度匹配算法思路以及如何利用XML的结构信息进行SLCA查询。与以往的SLCA算法相比,本文所提出的算法在时间复杂度上有了较大提高。
概念相关性是信息检索的重要内容,为了自动发现概念相关性,需要借助概念相关频繁项挖掘算法,因此本文还提出了在一种模式数据上挖掘的算法—自适应的频繁项挖掘算法。本文首先提出了一种基于FP-tree的简单深度优先搜索算法NDFS,并简单分析了其在不同数据集上的特性;随后本文进一步将NDFS和经典的FP-growth算法进行结合,提出了一种在挖掘过程中根据局部空间特征动态采用不同策略的自适应算法(Self-Adaptive FP-growth,SAFP)。
本文对我们所开发的XML原型系统和二元后继树模型在中国电信集团黄页信息有限公司项目《黄页信息检索》中的应用进行了简单的介绍,并试图阐述如何将前面几章讨论的文本索引技术和基于概念的语义索引方法结合起来,形成一个综合了结构化、半结构化和无结构化数据的信息检索系统。最后本文对到目前为止所做的工作进行了回顾,并提出了对未来进一步的工作的展望。