关键词:
专利分类
专利检索
语义消歧
流形降维
索引池
摘要:
近年来,专利知识得到人们的充分重视,专利分析和挖掘成为一个研究热点。机器学习技术的发展为专利挖掘提供了有利的技术支持,专利分类和检索是专利知识挖掘的基础工作,也是产品创新设计的必要工具。专利数据有独特的结构,专业性强,目前专利分类主要存在机械性强,数据维度高,分类率较低等问题;专利检索中存在数据量大,检索效率低,专业化门槛高等问题。针对这些问题,本文主要研究面向专利领域的中文文本分类和检索方法,旨在提高专利分类和检索效率,进一步挖掘专利知识。
本文针对专利挖掘中面临的问题,分别提出一种基于语义消歧和流形降维的专利分类方法和一种基于动态索引池的专利检索模型,并在此基础上提出用工程语义网理论去解决创新设计中的多冲突问题,用高维时间序列挖掘方法对专利数据进行深层挖掘,辅助创新设计,利于创新知识牵引。
基于语义消歧和流形降维的专利分类方法,主要针对机器分词、特征项提取中出现的机械性强,特征项不能体现专利数据的深层语义知识等问题,通过引入语义词典,对特征词进行消歧处理,减少特征项中的噪音,另一方面也相对的降低了文本向量的维度。维度过高是文本分类面临的另一个问题,通过引入流形学习算法,一方面寻找专利数据的本征维数,另一方面通过维数约减提高分类效率,最后通过实验验证了两种策略可以有效的提高检索效率。
大量研究表明通过多索引技术可以有效的提高检索效率,但不同的研究针对具体的检索应用(多语言文本,图像,视频数据等)提出各自的多索引策略,有效的提高了检索效率,但这些策略有一定的局限性,不能牵引到其它应用领域,也没有相关研究给出索引维护和管理的策略。针对这些问题本文提出一种面向应用的动态索引池模型,并给出了索引构建和优化的理论依据,索引池模型是将池化技术应用到多索引管理中,根据用户的查询反馈不断的优化索引结构,为用户提供更高效的检索服务,另一方面也可以降低系统的负载。并通过专利检索实验验证了索引池检索模型的有效性。
在专利分类和检索研究工作的基础上,本文提出用工程语义网对创新设计中的多冲突问题进行求解,创新设计的过程正是解决现实生活生产中应用冲突的过程,使用工程语义网对多冲突设计问题进行工程语义层面的理解,并以此对问题本身进行分析,解决多冲突设计问题;面向海量专利信息,提出使用高维时间序列数据挖掘的方法,分析专利分布规律,以期实现发明原理与专利实例之间的跨领域、系统化、多模式的匹配。