关键词:
XML,XML文档,信息检索,结构检索,向量空间模型,索引
摘要:
随着越来越多的数据开始采用XML进行描述、存储、交换和表现,面向XML文档的信息检索能力变得日益重要。由于XML文档的结构化特征,对于XML文档的信息检索技术不仅要满足内容需求,还应当能够体现结构信息。 本文首先针对XML文档的内容信息,从信息检索原理、数学描述、检索模型等方面较全面地研究了传统的文档信息检索技术,设计并实现了一个基于向量空间模型的内容检索试验系统。 然后,着重于XML文档的结构化特性,较深入地探讨了XML数据模型、文档结构、查询需求、索引模型,在此基础上提出了一种用于表示XML文档结构信息的编码方法,并基于所提出的XML文档结构信息编码方式,结合内容检索方面的研究实践,设计并部分实现了一个面向XML文档的信息检索原型系统。其中,XML文档的内容信息检索通过基于向量空间模型的内容检索试验系统来完成,结构信息则通过特定编码,以关系表的方式进行索引,通过将关系数据库与传统信息检索技术的结合,实现了XML文档内容、结构、属性信息的综合检索。 最后,在上述研究的基础上,特别是基于对向量空间模型技术的应用拓展,论文针对网络信息资源,提出并构建了一个网络信息采集、加工、服务的一体化解决方案。