关键词:
搜索引擎
自然语言处理
深度学习
微服务
摘要:
随着互联网的快速发展,搜索引擎已成为人们生活中不可或缺的组成部分。特别地,学术搜索引擎是一种专门用于检索学术文献的在线工具,它可以帮助学者、研究人员、教师和学生快速地找到相关的信息,了解某一领域的最新进展,评估文献的质量和影响力。但是目前的学术搜索引擎对查询词的处理较为简单,也无法支持多源异构数据的统一排序,所以本文设计的学术搜索系统旨在通过对查询词的深度处理和多模态内容重排序的实现,提高学术搜索引擎的搜索体验和内容质量,进而提高学术研究的效率和质量,促进知识的创新和传播。所以,本文的主要研究工作如下:(1)设计并实现了基于自然语言技术的查询词理解模块。通过设计查询词预处理,纠错,意图识别,分词,拓展六个子模块完成对查询词的处理,对用户输入的查询词进行深入理解,以便更准确地召回和排序相关文档。(2)设计并实现了基于ElasticSearch的多路召回引擎。利用ElasticSearch对多源异构的学术数据建立多路索引,通过ElasticSearch提供的强大搜索功能,实现快速准确地召回文档。(3)提出了基于深度学习技术的多源异构内容排序算法。通过门控循环神经网络和卷积神经网络分别对文字和图片信息进行学习,最后通过模态间注意力机制对模型进行融合,完成重排序任务。并通过对比实验和消融实验验证模型的有效性。(4)搭建了基于Spring Cloud的搜索后端微服务系统。本文遵循软件工程的设计思想和流程,在明确了系统的功能和性能需求的基础上,确定了系统体系结构,完成了各功能模块和接口的分析设计,实现对分类检索,统一检索和查询词联想需求的满足。最后对系统进行了充分的测试,证明了本文所提设计方案的正确性和有效性。