关键词:
专利检索
专利价值
文本相似度
向量空间模型
专利地图
摘要:
随着科学技术发展和科学研究领域的急速扩大,促使新研究成果及发明创造不断涌现,主要表现在研究型文献涌现。对专利以及专利与论文之间的引用关系的研究,可以较好的预测技术的发展方向,对工业界的发展有重要指导意义,专利检索就变得尤其重要,专利检索为推动专利转化做出了不朽的贡献。对专利内容分析,利用现有文本分析技术来解析专利研究领域和关键内容,成为必要的研究工作。
本文首先分析专利的研究现状和背景,由于专利数量众多,对它的下载分析可以采用Hadoop里的MapReduce框架来实现,大大提高了效率,文中以倒排索引为例对MapReduce程序进行深入研究,并初步探讨了非关系型数据库Hbase的存储机制。然后对文本聚类体系结构进行分析,包括文本预处理、文本特征提取、文本相似度计算,研究了文本聚类算法,主要是层次聚类算法和分割聚类算法,对它们进行比较分析。
这里提出了一种对文本相似度计算的改进方法,主要是把特征词在文本中的覆盖度引入计算公式,较好的处理了那些特征词权重高但文本覆盖率低导致相似度很高的情况。专利价值分析前,考虑到专利文本的特殊性,以专利标题和专利摘要作为原始文本,通过下载和解析专利来得到初始的文本,再对它进行文本预处理、特征提取、计算类别中心向量以进行聚类分析。对实验结果进行分析总结,现在由专利引发的争端越来越多以及近年来专利转让越来越普遍,企业逐步开始重视专利价值。
最后初步实现了专利地图的制作,通过构建专利地图可以方便地为我们提供某个领域的专利情况,使得人们可以全面地了解技术领域相关专利情况,以进行专利价值的分析。