关键词:
网络信息
分布式信息检索
聚类算法
类别标签抽取算法
摘要:
WEB信息的快速增长,给信息检索带来严峻的挑战.一方面大量的信息使得检索系统很难在极短的时间内(通常50毫秒)给大量的用户并发请求返回检索结果.另一方面返回的大量检索结果以列表方式呈现不够合理,用户需要花费较多的时间才能在其中找到自己需要的信息.\n 本文针对上面的两个问题开展了分布式\'WEB信息检索技术的研究.通过研究分布式信息检索中的集合划分问题、集合选择问题以及检索结果合并问题,能够在一定程度上解决海量信息检索面临的问题.本文尝试分别从文档空间和查询空间将整个文档集合划分成若干个子集合,检索时经过集合选择,选择那些最相关的子集进行检索,从而减少了需要查询的文档数量,减轻检索时的计算开销,使检索系统可以处理更大规模的文档,响应更多的用户并发请求.在检索结果合并中,通过采用检索结果聚类技术,把检索结果进行合理的聚类,使得用户可以快速的定位到自己需要的信息,检索结果聚类后每个类别都有类别标签,类别标签提示了类别中的文档内容,这些标签可以给用户很多的有价值的信息,也可以作为进一步查询的提示.●在文档集合的划分方面:\n 首先从文档空间和查询空间角度给出了三种文档集合划分方法:基于内容的文档集合划分方法、基于链接的文档集合划分方法和基于查询的文档集合划分方法.其中基于查询空间的文档集合划分是一种全新视角看待文档集合划分问题,基于链接的文档集合划分方法和基于查询空间的文档集合划分算法采用了本文提出的聚类算法LJBCA,在BloomFilter算法的帮助下,LJBCA算法具有极高的计算效率,线性的时间复杂度等极好的效率表现.其次针对文档集合的划分评价问题,本文从集合划分的问题出发,提出了两个文档集合划分评价模型,利用该模型可以求解出在给定查询相关文档集条件下的模型最优解,并给出了一种类哈夫曼编码的快速求解算法.利用两个评价模型对前面的多种文档集合划分方法进行了评价.●在集合选择方面:\n 对集合选择问题与文档检索问题进行了比较,同时将各种检索方法应用于集合选择问题中,通过实验比较发现:通常在文档检索中表现出较好性能的检索模型,在集合选择问题中也有比较好的表现;进一步,对语言模型在集合选择中的平滑进行了实验,实验结果表明平滑技术对模型的影响并没有在文档检索中所表现的那样明显,分析了产生这种现象的原因.●检索结果合并:\n 提出了一种层次化检索结果聚类算法,该算法利用多种特征融合的方法抽取类别标签,并由这些类别标签构成基础类别,通过定义的基础类别相关性构建基础类别关系图,再对基础类别关系图进行划分,提出了一种层次化检索结果聚类算法GBCA.在检索结果聚类的评价方面,首先通过编写的工具构建了自己的中文检索结果评价集合,利用此检索结果评价集合对我们的多特征融合的类别标签抽取算法和层次化检索结果聚类算法分别进行了评价,与著名的STC和最新的Snaket检索结果聚类方法相比较,我们的层次化检索结果聚类方法具有更好的聚类效果.最后我们采用本文提出的检索结果聚类方法构建了一个演示系统.\n 综上所述,通过开展本论文的工作,对于降低海量信息检索的计算开销,改善检索结果的组织与呈现方面具有重要意义.可以使信息检索系统能够为用户提供更快、更好的信息检索服务.