关键词:
自动查询扩展
相关反馈
检索词
信息检索
摘要:
随着多媒体技术以及Internet的迅猛发展,获得准确的信息显得越来越难。Web信息检索和多媒体信息检索都向传统的检索方法提出了挑战。为使信息检索系统更加有效,使检索结果更好地满足用户日益增长和多样化的查询请求,通常会采用各种方法对检索策略进行修改、扩展和完善。\n 相关反馈是自动查询扩展和精化技术的一个重要的方法。相关反馈技术在实际应用中的研究,如知识检索,基于内容的图像检索,WEB信息搜索中正在积极的展开着。\n 相关反馈过程的基本思路是,在检索过程中,允许用户对初始查询返回的检索结果进行评价和标记,指出结果集中哪些是与查询相关的,哪些是不相关的,这些相关信息作为训练样本反馈给系统作为自动重新构建查询表达式的重要信息,系统运行新的查询表达式执行下一步检索,从而使得新的检索结果更符合用户的需求。相反反馈过程是可以迭代的。\n 本文针对信息检索系统中的相关反馈技术,从以下几个方面展开了研究:\n 1、讨论了查询扩展技术发展过程中的三种类型,即手工查询扩展,交互式查询扩展和自动查询扩展。对目前常见的几种自动查询扩展方法展开了讨论。这些方法包括相关反馈技术,词表扩展,“伪相关反馈”以及“局部上下文分析法”。同时,也将这些方法与相关反馈做了比较。其中,“伪相关反馈”由相关反馈简化而来,“局部上下文分析法”借鉴了“伪相关反馈”的思想。\n 2、对相关反馈技术做了详细的研究:包括相关反馈技术的基本原理,相关反馈技术主要包括两个部分,查询扩展和检索词加权;相关反馈技术的优点;该技术需要考虑的问题及相应的解决方案;以及对相关反馈技术的性能评估。其中,相关反馈技术中的问题和解决方案是研究的重点:包括用于相关反馈的相关文档的数量,检索词的排序(选择)方法,加入到查询中的检索词的数量,以及这些检索词的权重计算公式等因素需要研究。\n 3、按照相关反馈技术在不同检索模型中的应用进行了研究。在介绍了向量空间模型中的基础概念之后,将Rocchio以及Ide提出的用于向量模型的相反反馈技术的三种算法作了比较,其中,针对Rocchio公式进行了详细的分析,并讨论了该公式中存在的不足之处,提出了改进方案。本文选择的概率模型是二元独立模型,讨论了将相关反馈技术用于该模型时检索词权值调整的方法,重点讨论了“BI权重公式”。并将概率模型和向量空间模型做了比较。同时,针对概率模型的特点,提出了向查询中加入或者移去检索词的策略。在简单的回顾了布尔模型之后,介绍了Dillon方法和DNF方法。在该章的最后,针对相关反馈技术在这三种模型中的应用做了评估和比较。\n 4、对相关反馈技术中经典的检索词排序(选择)算法做了深入的探讨,对它们带来的性能改进做了比较,这些方法依据文献集合的不同,以及选择模型的不同而会产生不同的效率。同时提出了各方法在相关反馈技术应用中需要注意和解决的一些问题。\n 5、最后对相关反馈技术做了一个总结,指出相关反馈技术在实际应用中的现状,面临的问题以及发展的趋势。