关键词:
信息检索
查询扩展
检索模型
局部共现
摘要:
随着互联网技术的迅速发展,网上信息飞速增长。如何从这些海量信息中检索出所需要的相关信息已成为一个非常重要的研究课题。而由于用户查询与文档信息不匹配和表达不完整等现象的存在,传统信息检索的结果难以达到用户的查询目标。因此研究信息检索中的查询扩展技术,通过对用户的初始查询进行扩展和重构,具有重要的理论价值和实践意义。本文的主要研究工作如下:
(1)比较研究了传统检索模型的检索性能,包括布尔模型、向量空间模型和概率模型。并提出了一种改进的向量空间模型——N层向量空间模型,该模型首先识别文档的结构,将文档划分为N层,根据各层对文档的重要程度,给各层中词项的权重赋予不同的比例系数,对词项的权重进行调整,以更好地区分相关文档和不相关文档,提高系统的检索性能。
(2)重点分析研究了基于用户相关反馈的查询扩展方法、基于全局语料集的查询扩展方法和基于局部文档集的查询扩展方法,比较了它们各自的优势和局限性。结合基于全局语料集的方法和基于局部文档集的方法的优势,提出了一种基于局部共现的查询扩展方法。该方法利用词项与所有查询词在局部文档集中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词与查询主题有更好的语义相关性。在NTCIR-6测试集上进行的实验结果表明,相对于伪相关反馈方法,基于局部共现的方法具有更优的检索性能以及更好的稳定性和实用性。
(3)设计并实现了一种网络信息检索系统,该系统采用了N层向量空间模型以更好地区分相关文档和不相关文档,使用基于局部共现的查询扩展方法对查询进行扩展,提高了系统的召回率和准确率,本系统还具有良好的可扩展性。