关键词:
专利检索
查询扩展
排序学习
摘要:
近年来,知识产权和专利系统受到了众多学科研究人员的广泛关注。随着系统中专利数量的急剧增加,研究人员从海量专利数据中精准获取所需要的相关专利变得越来越困难。因此,基于专利的信息检索技术成为相关领域的研究热点之一。不同于通用领域的信息检索,专利检索不仅要检索到相关的专利文档,而且需要将专利所特有的一些特性融入到检索模型的构建中,从而为用户提供更为贴切的检索结果以满足用户的信息需求。将专利特性融入检索模型最有效的方式就是利用查询扩展,查询扩展是一种经典的信息检索技术,它能够在用户提交给检索系统的查询的基础上进行补充和完善,构造更加符合用户信息需求的扩展查询,提高信息检索的整体性能。本文研究着重于专利信息检索中的查询扩展方法的分析与研究,主要研究工作从以下三个方面展开:(1)基于多文本域的专利检索查询扩展方法。专利文献不同于普通文献,其每个文本域都具有很强的意义,彼此独立性较强,包含的信息也较完整,本文针对专利多文本域的特点构造专利查询扩展方法。由于相同的词项在不同文本域中可能存在不同的检索重要性,描述专利的侧重点也不同。专利文献的每个文本域作为一个单独扩展源应用于候选词提取,赋予每个单独的文本域不同的权重。本文研究基于多文本域的专利检索查询扩展方法,提出一种基于文档域的查询扩展双阶段排序方法,论证了专利文献中基于多文本域提取有效扩展词的可能性和必要性。同时,本文也将词向量表示的方法应用于查询扩展词的选取过程当中,基于专利的多文本域,提出四种方法,利用词向量模型计算得到的原始查询与候选词的相似度,进行专利文档检索的查询扩展进一步提高查询扩展方法的性能。(2)基于不同信息源的专利检索查询扩展方法。针对传统的查询扩展方法仅仅基于单一的相关反馈文档作为查询扩展源的问题,本文将其他网络资源用于查询扩展词的提取。首先基于语义词典计算查询词和扩展词的语义相似度,应用该语义相似度对查询扩展词选择方法进行改进。同时本文不仅采用已有的用于检索的专利文档作为扩展词来源,增加其他专利文档作为扩展词的外部资源进行扩展词的提取。从德温特(Derwent)专利数据库中,用扩展词提取方法提取标题域和摘要域中的扩展词。同时也利用谷歌搜索引擎从查询词检索所返回的文档中来提取扩展词,提高专利文献检索的准确率和召回率。(3)基于排序学习的专利检索查询扩展方法。排序学习是一种有效的多种信息检索模型所转化的排序特征集合的融合策略,能够有效提高最终的信息检索结果。针对查询扩展方法的多样性以及其参数调整的复杂性。本文提出一种基于排序学习模型的查询扩展方法融合框架。将专利检索中的多种信息检索模型,查询扩展方法及参数调整策略转化为专利排序特征。通过排序学习方法训练排序学习模型对这些特征进行融合,从而提高查询扩展在专利检索中的性能。与一般的排序学习方法只采用不同的结果排序方法作为排序特征不同,本文所采用的特征不但考虑了结果排序方法,而且增加了基于多种的查询扩展策略与之融合的方法构造特征,实验证明在TREC测试集中,该方法能够有效提高专利检索的准确率。通过以上三个方面的研究,可以很大程度上提升专利检索查询扩展方法的性能,从而构建更为有效的专利信息检索系统,服务于科学研究人员,使之更为高效便捷地获取所需专利,更好地把握相关领域的研究进展。在上述研究的基础上实现了一个专利检索原型系统,可以在实验数据库以及实际专利数据库德温特数据库中切换专利检索。将所提出的多种专利检索策略嵌入实现的专利系统,并提供专利检索服务,在实际应用中检验所提出的方法性能。