关键词:
专利检索
深度学习
扩展查询
词向量
稠密子图
摘要:
知识产权是一个法治概念,是指人们就其智力劳动成果所依法享有的专有权利,通常是国家赋予创造者对其智力成果在一定时期内享有的专有权或独占权(Exclusive Right)[1]。以专利为重要组成部分的知识产权已经成为企业与企业、国家与国家之间竞争的焦点,专利承载着最核心的技术点,无论是对国家还是对企业,都是值得研究和抢占的技术资源。引自中国国家知识产权局权威发布的数据,截至2017年3月,世界五大局发明专利申请量已经达到260万件,其中专利授权数量也已经达到110万件[2],这表明人们越来越重视保护自身的知识产权。面对如此庞大的专利数据,如何有效地加以利用越来越成为相关企业和学者一直致力于解决的问题。对于专利授权单位,需要在海量的专利数据文本中查找有否与当前申请专利相同或类似的技术点的专利,这关系着是否能为当前申请专利进行授权。对于企业,需要查找与相关领域专利集合,避免技术侵权。而对于专利撰写单位或个人,则是要避免所写专利与当前存在的专利产生重合,增加专利授权的可能性。由此可见,专利检索贯穿于专利应用的所有场合。当前已经有不少关于专利检索方面的研究,许多有影响力的国际组织和会议,例如 SIGIR(Special Interest Group on Information Retrieval),ACL(The Association for Computational Linguistics)和 NTCIR(The Japanese National Institute of Informatics Testeds and Community for Information access Research project)等等,都组建了相应的workshop进行专利文献的分析和研究,也出现了不少优秀的算法模型。但是,专利检索的查询性能不佳,召回率和准确率仍然有待提升。针对当前专利检索的研究现状,本文提出一种深度学习下新型专利检索方法模型,利用深度学习对海量的数据的处理能力和自动学习的能力,旨在进一步提高专利检索的召回率,同时保证专利检索的准确率。通过深度学习模型将专利文本集合训练成词向量的表现形式,赋予每一个关键词一个唯一的向量,将关键词相关性计算转换成向量之间的计算。然后将关键词映射为图中的一个结点,结点与结点之间的边用向量之间计算出的值来表示,提出稠密子图算法来获取扩展词集合。原始查询词集合和获得的扩展词集合进行专利检索,并最终利用专利文档排序模型对查询到的专利结果集合进行排序。