关键词:
信息检索
文本检索
语义模型
TREC评测
摘要:
信息检索,包括信息的组织、呈现、查询、存取等各个方面,为人们提供了快速、精确地获取所需信息的方式.信息检索通常是文本检索,其核心是根据用户查询找到相关文本,包括\"标引\"和\"相似度计算\"两个关键技术.随着信息社会尤其是互联网的发展,人们对检索的要求越来越高.传统的基于关键词匹配的检索技术,往往存在查不全、查不准、检索质量不高的问题.因此,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.由于文本大多数是用非形式化的自然语言表述,因此实现智能检索的关键就是要在一定程度上理解自然语言,挖掘出隐藏在文本背后的\"语义\".从研究现状来看,基于词汇的语义模型是一类比较理想的浅层语义表述方式,已经有了很多成功的实践.因此,在信息检索中引入智能技术的一种方案,就是在\"标引\"和\"相似度计算\"两个关键技术中引入词汇语义模型,用浅层语义来指导检索过程,提高检索的准确率.这正是文本的选题思路和工作重点.该文首先简要介绍信息检索和语义模型的研究现状,说明两者结合的必要性和合理性.然后,论述三类语义模型(隐含语义标引、语义树、语义张量)在信息检索中的应用.最后,介绍模式识别国家重点实验室(NLPR)的信息检索系统框架、模块和实现;并利用TREC评测来测试系统的功能和性能.概括地说,该文主要有如下一些工作.(1)论述了语义模型与信息检索中两个关键技术(\"标引\"和\"相似度计算\")的结合问题;(2)改进了隐含语义标引模型,提出弱指导的统计隐含语义标引模型,使语义空间分布更合理,效率也更高.这个模型可以小规模地应用于\"查询主题词构造\"技术;(3)提出了基于语义树的语义空间模型.语义空间不再是静态的,而是实时构建的,其灵活性和可操作性优于各种隐含语义标引模型.尤其在查询主题词扩展技术方面,性能超过了常见的扩展算法;(4)提出了语义张量的概念,并明确了其物理意义,归纳为两个核心思想.进一步,用窗口系列模型来表述这两个思想,并应用于查询和文本间的相似度计算.实验证明,这类模型比传统的矢量模型更有效;(5)构建了NLPR检索系统框架,并完成了模块设计和编程的工作.除了标引和相似度计算等与检索技术相关的模块外,还包含了汉语分词、英文词形还原等语言处理技术;(6)通过参加2003年的TREC评测(Robust Track和Novelty Track),测试了检索系统的的功能和性能,并积累了一些文本检索的经验.其中,在Novelty检索任务中获得了较出色的成绩.