关键词:
中文维基百科
信息检索
知识概念
文本表征
摘要:
随着计算机和互联网的普及与发展,网络上各种信息资源的数量也在爆炸性的增涨。互联网用户在享受海量数据信息带来便利的同时,也必须面对如何从这庞大的信息中提取自已所需信息的问题。信息检索技术为解决这一问题提供了帮助。 然而传统的信息检索大多基于关键词的匹配进行查询,从而忽略了语义信息的作用。这使得检索系统不能充分理解用户的真实查询意图,从而导致检索出来的相关文档集合可能与用户的真实查询意图并不相符,致使检索系统的性能严重下降。因此,如何让信息检索系统充分理解用户查询的真实意图成为了信息检索领域中的一个热点研究课题。本文将知识概念的思想加入信息检索系统,使检索系统在知识层面上更好地了解用户的查询意图,提高检索结果的精确度。具体的工作如下: 第一,利用中文维基百科作为额外的大型知识概念库,提出了一种基于知识概念的文本表征方法。该方法将中文维基百科中的每个条目作为一个独立的知识概念,通过比较每个知识概念的描述文本(条目)与待表征的自然语言文本的关联度来衡量该知识概念与自然语言文本的相关度,从而选择出合适的知识概念对文本的语义进行概念的表征。 第二,将知识概念表征文本语义的方法融入到传统的信息检索系统中。通过对查询条件与待检索文档集进行知识概念的表征,得到基于知识概念的信息检索。最终,将基于知识概念的检索与传统“词袋”检索方法相融合,并且结合伪相关反馈的方法,提出一种全新的检索策略。 第三,实现本文中所提出的检索方法,并且在NTCIR-5中文信息检索测试集上进行测试实验。最终经过实验证明,相对于传统伪相关反馈技术,本文方法在平均准确率(MAP)和前10选的精度(p@10)上都有了进一步的提高,从而证明了本文方法的有效性和实用性。