关键词:
搜索引擎
生成式摘要
控制文本生成
Transformer
长短注意力
权重解码
摘要:
近些年,互联网中的网页数量快速增长,使用户面临信息过载的问题。搜索引擎是帮助用户检索这些网页的重要工具,所以研究和改进搜索引擎摘要生成,可以提升搜索引擎的使用体验和检索效率。本文基于Transformer研究了生成式摘要技术,从关键词注意力和解空间分布情况等角度,提出了LS-ESS-TF模型;并针对中文摘要的控制文本生成问题提出了CCDMCN模型;最后,基于上述模型构建了搜索引擎系统。本文具体内容如下:本文首先介绍了课题的研究背景和意义,接着介绍了自动摘要生成、控制文本生成与搜索引擎的研究现状。其次,介绍了使用到的相关技术基础,例如Transformer,文本向量化等技术。之后,针对使用Transformer生成摘要时对长度较短的关键信息短语提取能力不足的问题,以及模型输出概率分布最大值倾向于远大于其他值而导致使用Beam Search解码模型概率分布输出结果容易退化为Greedy Search,和在较长文本输入时多头注意力因低秩现象导致的信息提取能力下降问题,提出一种新的生成式摘要模型LS-ESS-TF。模型提出和使用MH-CSSA算法加强短文本信息的提取能力,使用双路解码器对模型输出的概率分布进行优化,使用Talking-Head机制优化多头注意力低秩现象。LS-ESS-TF模型在LCSTS数据集上的实验结果表明,其性能较包括Transformer在内的一些模型在ROUGE指标上得到了一定的提升。随后,针对基于Pn P方式实现中文摘要任务的控制文本生成导致摘要内容流畅性和准确性下降问题,和中文控制生成过程中语义单元为中文词,而单次控制生成的结果为字,导致无法保证控制语义完整的问题,提出一种新的控制文本生成模型CCDM-CN。模型在中文摘要任务中使用外部知识字典树保证控制生成内容的流畅性,使用控制词筛选模型选出合理的控制词以及基于Text Rank计算控制词优先级并降序排序来缓解摘要的准确性下降问题。针对中文词的控制生成问题,模型设计使用单词进入机制增强控制生成内容的语义完整性。在构造的包含控制词的LCSTS数据集上测试结果表明,CCDM-CN模型可以在较低地牺牲准确性、流畅性的前提下,达到较高的控制文本生成成功率。最后,基于上述提出的生成式摘要算法LS-ESS-TF与控制文本生成算法CCDM-CN,使用My SQL数据库及倒排索引、Torch Serve深度学习模型服务框架、Django、Vue框架和Page Rank算法,设计和实现了搜索引擎系统,并对系统结果进行了展示。