关键词:
垂直搜索
全文索引
专利检索
摘要:
互联网的发展带来的海量数据,在为人们提供更多信息资源的同时,如何为用户准确提供所需信息,也成为其所要面对的问题。传统搜索引擎,例如百度、Google等,功能基本已经可以满足用户需求,但当用户需要检索面向某一主题的信息时,这些传统通用搜索引擎所存在的时效性差、覆盖率低、易导致迷航等缺点就会表现出来。基于通用搜索引擎所存在的问题,垂直搜索引擎成为了搜索引擎发展的另外一个方向。
本文首先介绍了垂直搜索引擎的概况,并对搜索引擎的原理、全文检索技术,以及中文分词进行了简要介绍。而后,本文对***搜索引擎框架的相关技术进行了剖析,并对其分词、索引以及搜索的工作原理进行了介绍。在深入理解搜索相关技术的基础上,本文分析设计并实现了面向专利的垂直搜索引擎系统,该系统在功能上可划分为数据导入、索引创建和检索功能。系统通过抓取器获取数据,通过索引器对抓取到的信息进行索引并创建索引库,通过检索模块为用户提供搜索功能。其中索引创建时,采用配置文件对索引模块进行配置,使系统具有一定的可配置性,同时采用多线程处理机制对数据进行抓取和索引,提高了索引效率。
本文实现了“面向专利信息的垂直搜索引擎”系统,该系统能够为用户提供专业的专利搜索服务,用户可以利用系统进行专利数据导入数据库、建立专利索引库,以及对专利信息进行快速检索和高级检索等,从而有效解决了专利检索时通用搜索引擎中所存在的问题,为用户提供了更加精确的检索功能。