关键词:
搜索引擎
信息检索
信息采集
数据结构
摘要:
最近几年中WWW信息的巨大增长,使得资源采集效率越来越重要。从而业界提出了-些很好的想法。其中一个关键的技术,就是垂直搜索引擎,它可以在网上搜集出特定的主题而不用把所有的页面都浏览一遍。垂直搜索,是对一个大分类目录中一个主题进行专题搜索,是与搜索引擎行业相关的并新成一体,它是一个详细而精确的信息搜索引擎。虽然目前Google,Yahoo!仍然会继续支配着在线消费级的搜索市场,可是研究人员指出,将会有各种各样的专题搜索引擎出现,向需要精确信息的人群和行业提供服务。在这篇论文中,提出一种新颖的基于主题的网络爬虫,爬虫在它爬行的过程中,会分析和学习跳转链接的特性。基于主题的Web信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,这包括主题与起始URL选择、Spider采集、页面分析、URL与主题的相关性判定、以及页面与主题的相关性判定等一系列步骤。分别给出了相关的处理算法和流程以及相应的数据结构,并针对研究过程中遇到的问题,提出了算法、判定规则和规律。