关键词:
基于上下文的信息检索
统计语言模型
领域本体
概念
语义相关度
用户上下文
用户认知结构
摘要:
随着信息检索技术的发展,基于上下文的信息检索技术(Contextual Information Retrieval,CIR)成为当前信息检索领域研究的热点。CIR是把有关用户、查询的上下文知识和信息检索技术融合在一起,统一组织在一个整体框架内,以向用户提供最适合用户需求的检索信息。对CIR的研究不仅对理解用户“查询背后的需求”(the need behind the query)、实现检索的“所得即所需”提供技术支撑,并为未来实现“上下文驱动的信息推送”(context driven information supply)提供理论研究基础。 为了达到“所得即所需”的目的,信息检索系统需要充分地理解并掌握检索活动的主体(用户)和客体(资源)。CIR中,通过分析上下文信息从语义角度理解用户和资源是关键的一环。本文就信息检索过程中统计语言模型方法的文档语义理解问题、用户个性化需求的语义理解问题两个方面进行了深入的研究,并在此基础上设计开发出一个个性化知识检索原型系统:CKRS。本文的主要贡献包括: 1)提出一种计算词语-概念相关度的K2CM方法 人们现实生活中存在的查询表达多样性常常为信息检索带来许多语义理解错误――词语问题,基于概念的语义检索已经是一种公认的解决方法。在基于概念的语义查询扩展中,词语-概念语义相关度的确立是个中心环节。随着语义Web和本体技术的发展,越来越多的文档按照本体标注和组织。针对这类文档,本文提出一种新颖的K2CM(Keyword to Concept Method)方法,从两方面观察词语-概念相关度,一方面是从词语-文档-概念所属程度角度,一方面是从词语-概念共现度角度。词语-文档-概念所属程度来源于标注的文档集中词语通过文档和概念构成的所属关系。词语-概念共现度是在词语概念对共现性基础上增加了词语概念对的文本距离和文档分布特征的考虑。公开数据集上的语义检索实验结果表明,和传统方法相比,基于K2CM的语义查询扩展可以明显提高查询效果。 2)提出把词语-概念相关关系引入统计语言模型中 统计语言模型因其具有直观明了的概率含义和表现良好的检索效果成为信息检索领域中继向量空间模型和概率模型之外的另一个主要研究工具。针对按概念类别组织的文档集,提出一种基于词语-概念相关关系的统计语言模型TCA-LM(Term-Concept Association based Language Model),把从文档集中获取的词语-概念相关关系融入到已有的统计语言模型中。TCA-LM的基本思想是把一篇文档看成由两个文档块组成,一个是由概念构成的有语义文档块,另一个是由”无语义”词语构成的无语义文档块,分别计算两个文档块和查询的相似程度。对无语义文档块,我们把里面的词语都假设为无关的,沿用已有的经典统计语言模型计算。对有语义的文档块,把查询词语和概念相关关系引入统计语言模型中。词语-概念相关关系采用词语-概念相关度来衡量。在计算过程中,只对文档中重要的有语义部分(即由概念组成的部分)应用词语-概念相关关系而省略相对不重要的无语义部分,在引入词语-概念相关关系对统计语言模型进行修正的同时也提高了计算效率。公开数据集上的检索实验结果表明,基于词语-概念相关关系的统计语言模型可以有效帮助提高检索准确率。 3)提出一种领域本体中概念之间语义相关度的计算方法 当前,本体中概念之间缺乏相应的语义相关度成为本体的应用障碍之一。提出一种基于概念间不同类型语义关系计算概念间语义相关度的方法SRbM (Semantic Relationship based Method)。SRbM基于领域本体的语料库,从贝叶斯概率论思想出发分析具有不同类型语义关系的概念对在语料库中共现的特点,利用极大似然方法估计领域本体上一个概念到其直接相邻概念的语义相关度DSA(Degree of Semantic Association)。在DSA的基础上,依据概念之间相关关系的传播性,给出了一种计算领域本体中任意两个概念之间语义相关度的方法。实验部分采用美国医学主题词表MeSH和信息检索领域公开的CF数据集实现语义查询扩展。实验结果表明SRbM方法产生的语义相关度具有相当的有效性,应用在语义查询扩展中可明显提高检索效果。 4)提出基于领域本体构建用户认知结构 认知能力是人类的基本能力之一,用户的爱好、理解水平、表达等都和用户的认知结构紧密相关。了解用户认知结构是理解用户个性化需求的重要因素之一。本文提出在领域本体基础上建立用户认知结构表示模型DbSAM(Domain based Spreading-Activation Model),根据用户提供的认知中心概念,一方面,通过领域本体上概念之间的语义相关性推导