关键词:
社交网络
社团检测
贝叶斯模型
情感传播
摘要:
社交行为一直存在于人类社会当中,个体之间常常通过相互交流激发思想、碰撞火花、革新技术、解放生产力。伴随着社会的变迁,人们更加懂得团结合作,社会关系也从原始社会单纯的血缘关系进化到现代社会复杂的社会关系,诸如朋友关系、亲戚关系、同学关系、同事关系等。20世纪中叶,由于互联网的快速发展,人们的沟通交流愈发便捷,越来越多的人们更加容易通过网络表达自己的观点、看法,同时人们也会在虚拟社交网络上建立不同类型的社会关系,比如关注与被关注的好友关系,以及转发、接收、点赞等社交行为关系。社会中个性独立的个体以及他们之间的社会关系统一构成了社交网络,在这些网络中独立的个体有自己的爱好、思想、生活环境等,这些因素导致了社交网络中社团的形成,譬如在同一个社团中的个体就更容易具有相同的价值观念、爱好、习惯等,也更容易进行相互交流。本文的目的是通过使用网络中不同类型的信息将具有相同个性的个体更细致的归于统一社团。本文主要研究在线社交网络中的社团结构。具体而言,譬如微博、微信、推特等我们日常生活中接触的软件都属于在线社交软件,其构建的网络通常属于在线社交网络。用户之间会存在多种类的关系,如亲戚关系、同事关系、同学关系、好友关系等,而他们书写的博客等文档被视为用户的属性,文档的引用、转发等可被视为属性的传播,因此社交网络不仅包含了关系信息,还蕴含了丰富的语义信息及其传播信息。通常社交网络中的用户被视为节点,而节点间的关系被抽象成边,社团检测的目标就在于把网络中的节点划分为多个集合,使得集合内部成员联系紧密、社团之间成员联系稀疏。对于真实的社交网络而言,由于其拓扑的复杂性,很难得到最优社团结构,检测精确的社团结构目前是一个很大的挑战。近年来,研究者提出了很多检测社团的方法,按照其利用的主要信息的不同大致可分为四类,1)仅利用拓扑关系的方法、2)融合语义信息方法、3)融合信息传播的方法、4)融合情感信息的社团检测等。首先,仅利用拓扑关系的社团检测方法亦可分为如下几类,譬如:模块度优化、谱图聚类、层次聚类以及基于概率统计学等方法,尤其是一些通过利用节点的原始数据使社团检测结果更加精确的方法,如随机块模型等。然而,真实社交网络不仅包含拓扑信息,还包含大量基于个体用户内置结构的文档信息(如用户的博客等),书写相同语义文档的用户更有可能处于同一社团,因此,同时考虑拓扑信息和文本信息将会使社团检测的结果更加精确。研究者们还发现发布相同或相似内容文章的用户更容易处于同一个社团。同时考虑拓扑和文档信息的另一个优点是:如果丢失单一信息源,另一个信息源也可以用来学习网络中的社团结构,这进一步体现出了社团检测的鲁棒性。目前主要有两种融合网络结构和用户文档的社团检测方法,一种是依托深度学习得到每个文档内容的表征,再通过表征将节点聚类;另一种方法是依托统计模型或深度学习设计端到端模型,同时直接发现社团结构。此外,研究者还发现转发文档的用户更可能与书写该文档的原用户处于同一个社团中,因此研究者还可以通过文档的信息传播更精确的划分社团结构,目前也有几个工作可以根据社团间及社团内部传播信息的差别进行社团检测,从而进一步提升社团检测精度。从另一方面,社交网络中每篇文档不仅包含丰富的文本语义信息还包含大量的情感信息,而情感信息可以更加客观的反映出用户的观点和看法。近年来,也有一些基于情感信息检测社团结构的方法,这时研究人员通常认为书写相同情感极性文档的用户更容易处于同一个社团。由上述分析可见,目前已有的工作大多依靠拓扑、语义、信息传播或情感信息进行社团检测,然而并未考虑情感传播对于社团检测的重要影响。以美国大选为例,一些人支持以乔·拜登为代表的民主党,另一些人支持以唐纳德·特朗普为代表的共和党,这两个社团内部会传播积极的情感并相互促进,但社团间会传播消极的情感而产生大量的冲突,因此,根据社团内与社团间的情感传播机制将更有利于学习真实的社团结构。目前虽也有几个依托情感信息检测社团结构的工作,但是它们仅仅考虑了社团内部而忽略社团间的情感传播,即仅仅考虑了民主党或共和党内部的积极情感,而未考虑它们之间的消极情感,而社团间的消极情感通常被认为对于社团结构的形成是非常重要的。本文的特点就在于不仅考虑了社团内部的情感交互信息,还充分考虑了社团间的情感交互信息,因此,可以从宏观的情感传播层面客观地反映出社团之间情感的交互性质,从而更精确地学习出真实社团结构。此外,本文的另一个动机是应用划分后的社团信息来研究真实网络的情感传播机制。有一种简单的方法可以刻画社团间的冲突和促进,该方法分三步,首先用现有的方法划分社团,然后再统计社团内部和社团之间传播文档的情感极性,最后找到社团间的情感传播规律,但是,该方法忽略了情感信息对社团结构的影响。因此,本文设计了一个合理统一的端到端模型——基于情感传播的社团检测(CSDD