关键词:
科技文献
摘要分析
专利检索
引用计量分析
advisor-advisee关系挖掘
摘要:
近年来,人工智能(AI)和大数据技术飞速发展,受到学术界和工业界广泛关注。人工智能和大数据在某种意义上是相互的依存的。作为研究成果的重要传播载体,科技文献成为追踪行业技术发展的重要手段。本文研究的科技文献主要是专利文献、期刊论文和会议论文。目前已经有一些关于专利,期刊和会议论文的分析工作,但是都尚存一定的改进空间。在专利分析方面,大多数工作在进行专利分析的时候是在给定检索词的情况下,从专利数据库中检索相关专利信息进行分析。但是由于不同作者对关键词的设置存在主观性,甚至有些作者故意抽象对自己专利的描述。所以,单纯使用个别关键词的匹配方式检索专利很容易遗漏查询结果,扩大关键词的覆盖面是解决这个问题很好的方法。本文设计一个过滤器,从专利摘要中获取与“大数据”相关的词组,并将结果与Term Frequency–Inverse Document Frequency(TF-IDF),SegPhrase,C-value,Word2vec等方法进行比较,发现基于过滤规则的方法在获得与“大数据”相关的短语方面有着更有好的效果。在对期刊会议论文的分析方面,很多方法都是基于论文的引用计量分析,但是多数的方法都没有考虑论文引用权重随时间的变化情况。为了使实验数据具有代表性,我们参考了China computer Federation(CCF)推荐的2015年计算机领域的学术期刊会议列表。在详细分析期刊和会议的引用权重随时间的变化后,设计一些指标来对期刊和会议进行分类并验证所提指标的合理性。最后,将期刊和会议混合在一起进行比较,并在数据驱动下发现一些有意思的结论。同时advisor-advisee关系也是隐藏在科技文献中的一个重要信息,主要是包含于合著网络中。前期工作主要是从整个作者合著网络角度分析,结果很容易受到个别作者(度值比较大的节点)的影响。考虑到这个问题,本文先将原作者合著网络分割成很多小的独立的网络,然后在这个小的社团中进行advisor-advisee关系挖掘。从而可以保证作者的advisor属于该作者的合作者,并且结果不受其他作者的影响。最终,对于一个给定作者,本文的方法可以计算出他的导师并画出他的学术继承图谱。