关键词:
Solr
搜索引擎
分布式
ZooKeeper
专利
摘要:
随着科学技术的持续发展,专利数据量不断提升,专利数据管理变得越来越困难,企业快速并有效的提取有价值的专利信息也越来越困难。针对以上问题,本课题设计并实现了一款基于Solr技术的专利信息检索系统。主要工作包括以下几方面:首先,针对专利信息检索系统的技术实现的复杂性,主要采用Solr全文搜索引擎技术和IK Analyzer分词器插件实现本系统检索功能。Solr通过对Lucence底层封装,实现倒排索引功能,通过使用IK Analyzer自定义分词器插件,检索词或短语更容易查找专利文档,并且Solr搜索技术成熟稳定,支持多种数据格式,对专利数据的格式多样性支持性更好。其次,针对专利信息检索系统的检索速度方面的优化,系统通过硬件和系统架构方面进行优化,保证检索速度。硬件方面,对服务器内存和CPU配置进行升级,并将传统硬盘替换成SSD硬盘提升索引读写速度。系统架构方面,通过对Solr基础单元Field进行合并,加权重等优化,实现检索速度提升。然后,针对专利信息检索系统的高可用性,采用基于SolrCloud和ZooKeeper的分布式搜索方案,并对Solr索引进行集群部署,保证了检索系统的高可用性。SolrCloud和ZooKeeper分布式部署可以很大程度上解决当单个Solr服务不可用时,可以访问其他Solr数据,不影响整体搜索功能使用。最后,本文利用Solr完成了专利信息检索系统的基础构建,并通过对服务器进行升级,Solr进行架构优化,提升检索速度。同时对本系统进行SolrCloud和ZooKeeper的分布式和Solr集群部署,保证了检索系统的高可用性。通过对检索系统进行性能指标和功能测试,测试结果显示功能和性能都符合预期结果。