关键词:
XML文档
交互式信息检索
节点编码模式
检索模型
相关反馈
聚类
摘要:
XML作为互联网上信息描述和数据交换事实上的标准,已经被业界广泛采用。随着Web上大量XML文档的涌现,如何对XML文档进行有效的检索成为了一个具有实际应用价值的重要研究课题。由于XML文档是一种半结构化的数据,具有明显的结构标记,可表达一定的语义信息。因此,可以利用XML文档所含有的结构信息,改进传统的基于关键词的信息检索,从而提供更加全面准确的检索结果。但是,由于XML文档结构的复杂性、异构性以及可扩展性,使得如何在信息检索的过程中有效利用XML文档的结构信息成为了XML信息检索所面临的首个挑战。 源于数据库的XML查询语言可以表达复杂的信息需求,但是要形成有效的结构化查询对于最终用户来说是非常困难的事情。因为用户可能并不熟悉文档结构,所以很难提出准确的“内容+结构”的结构化查询。基于关键词的XML信息检索依然面临着用户需求表达模糊的问题。XML信息检索实际上也是一个交互式的检索过程,相关反馈、检索结果聚类等交互式信息检索技术在XML信息检索中依然存在,而且有其独特的特点。例如,如何利用关键词检索的简单性迅速返回查询结果,然后根据用户的相关反馈等信息,系统自动形成或帮助用户形成内容+结构查询,以清晰地表达用户信息需求;如何根据XML文档的内容和结构特征聚类XML信息检索结果,以帮助用户迅速找到满足其需求的信息。因此,如何利用交互式信息检索技术改进XML信息检索的准确性是XML信息检索所面临的又一个挑战。 本文从XML信息检索所面临的这两个挑战入手展开研究,以XML文档交互式信息检索技术作为研究课题,主要研究两个问题:第一个问题是如何有效地结合结构信息和内容信息实现XML信息检索,主要包括XML节点编码、索引、检索模型和查询处理算法;第二个问题是如何进一步解决XML信息检索中同样存在着的用户信息需求表达模糊的问题,即研究相关反馈、检索结果聚类等交互式XML信息检索的一些关键技术。本文所做的主要工作和贡献包括以下几个部分: 1) XML节点编码模式及索引结构的研究。提出了一种新颖有效的节点编码模式,详细论述了该节点编码模式的定义和性质。在这个新的节点编码模式的基础上,构建了一种有效地集成结构索引和文本内容索引的混合索引结构HID。该混合索引结构HID能够有效地支持XML信息检索,包括关键词检索和结构化查询。对比实验结果表明本文所提出的新的混合索引结构HID在索引构建时间和空间消耗上具有较佳的性能。 2)XML信息检索模型及查询处理算法的研究。提出了一种用于XML信息检索的模糊结构向量空间模型。通过将文本内容特征词的概念扩展为结构化特征词,对向量空间模型进行扩展,使其能够包含结构信息的匹配和度量;同时将特征词在文档中出现的概念由一个精确的集合隶属关系,扩展为一个模糊集合隶属度的概念,以实现内容和结构信息的整体匹配,而且能够区别结构的匹配程度,建模不同程度的匹配为不同程度的重要性。该检索模型可统一建模关键词查询、标记关键词查询和路径关键词查询。最后给出了有效实现检索模型相应的查询处理算法,并实现了一个XML信息检索原型系统。对比实验结果表明本文所构建的XML信息检索原型系统具有较高的检索准确率和较快的查询响应时间。 3)XML信息检索相关反馈技术研究。提出了一种新的结合内容和结构的XML信息检索结构化相关反馈方法,能够有效地结合内容和结构特征等多种证据源,实现将初始的关键词查询扩展为内容+结构的结构化查询。该结构化相关反馈方法通过内容查询词扩展、查询词路径扩展和检索元素粒度相关反馈三种算法扩展初始的关键词查询。内容查询词的扩展和重新权重综合考虑了出现特征词的相关公共元素的数目、特征词在相关元素中的重要性、特征词邻接距离和结构语义等多种证据。实验结果表明本文所提出的结构化查询相关反馈方法可以有效地改进XML信息检索的准确率。 4) XML信息:检索结果聚类技术研究。针对XML文档的特点,提出了一种新的结合内容和结构特征的XML文档特征建模方法,能够有效地度量XML信息检索结果文档片断间的相似性。将XML信息检索结果聚类问题建模为k-中心聚类问题,通过改进解决k-中心聚类问题的贪心算法,提出了一种新的XML信息检索结果快速聚类算法。实验结果表明基于本文所提出的XML文档特征建模方法和新的XML信息检索结果快速聚类算法实现了较好的聚类质量和较快的聚类速度。