关键词:
引文推荐
个性化搜索
深度学习
搜索引擎
摘要:
恰当的引文选取对于学者的学术研究以及论文撰写具有十分重要的意义,不仅可以加深对专业领域内前沿研究的认识,也可以在别人的研究成果中找到新的研究点,并在论证自己观点的时候旁征博引,让人信服。据相关机构的不完全统计,仅在计算机领域,2019年就有三十多万篇文献发表出来,并且发表数量呈逐年上升的趋势,累计数量十分庞大。因此,对于学术界来说,在多如牛毛的文章中寻找合适的引文文献用作论证已越来越困难,尤其是对于新手和交叉领域学术研究来说。本研究响应了国家对科研文献开放获取工作的支持,减轻了学者的科研负担,提高了科研效率,对促进交叉学科领域的合作与发展做出了贡献,能够为广大学者提炼出质量高、符合其兴趣点的引文列表。本文将从搜索和推荐两个角度入手,针对科研人员的研究兴趣,生成个性化的引文推荐列表,提升学者处理引文文献的效率。首先,本文在搜索层面基于Lucene搜索引擎,融入深度学习方法在词嵌入层对词语进行分布式向量表达,解决了传统表示学习方法——one-hot方法维度过高、忽视语义信息、无法计算相似度的问题。在兴趣表达层面,将作者的文章标题集等关键信息进行分布式表达后,再经过编码层门控循环单元GRU模型的处理,生成语义中间向量用作兴趣表达,在经过注意力机制和解码层的处理,进一步加深模型对文本特征的理解能力,解决RNN记忆遗忘以及LSTM参数过多运算复杂的问题。模型训练完成后,构建用户兴趣模型并与查询词计算相似度,最后分析Lucene搜索引擎自带的排序算法规则,将个性化的兴趣向量表达搜索引擎原生的排序算法进行线性融合,达到个性化搜索的目的。其次在引文推荐方面,针对传统方法的缺陷引入了四个影响因子来协同推荐。传统的方法往往考虑特征较单一,无法全面的从各个角度综合考虑引文被引的影响因素,且有可能将相关度高但内容质量不高的文章推荐出来,对于新文献来说信息不足,也无法对其质量、权威性等属性有一个客观的评价。对于文本信息序列数据而言,词语之间上下文之间是存在语义上的联系的,然而传统的方法在处理文本信息时往往忽略了这一点。本文引入了四个与文献引用相关的影响因子——文章内容的影响力、近三年来的被引情况、与查询词的相关度、文章作者之间的关联度来协同推荐,综合考量待引用文献的影响力,对个性化搜索结果进行进一步的规约,从而完善推荐列表排序方法。本文通过word2vec模型对单词进行分布式表示,较传统表示学习方法而言,分布式的词向量维度低、信息稠密,计算相似度方便,且有利于后续挖掘语义信息。在分布式表示的基础上,分别计算出四种影响因子,再通过实验分析出四种影响因子的主次关系以及对推荐结果的影响大小,最后将四种因子线性融合进行协同推荐任务。实验结果表明,因子融合法在召回率以及NDCG评价指标上的得分都要优于传统算法,由此可知本文提出的算法具备可行性并且在语义理解和整体考虑上有一定优势。