基于增量聚类的动态社会网络社团结构演化方法技术

技术编号:13117823 阅读:68 留言:0更新日期:2016-04-06 08:45
本发明专利技术公开了一种基于增量聚类的动态社会网络社团演化方法,用于解决大规模网络中社团结构检测以及社团演化追踪的问题。该方法包括以下步骤:抽取整个网络的核心节点构成核心子图;在t=0时刻的核心子图上运行层次聚类算法以到核心社团的初始结构,并在此基础上使用扩展算法得到整个网络的社团结构;在t>0时刻,根据相邻时刻网络的动态演化情况采用增量聚类算法得到当前时刻的核心社团结构并扩展它得到整体社团结构。通过引入核心子图,本方法避免了在整个网络中进行增量计算,加快了处理速度从而适用于大规模网络下的社团发现。另外通过引入社团结构偏移度的概念,本方法避免了长时间演变后社团结构出现较大偏差,提高了社团演化追踪的准确度。

【技术实现步骤摘要】

本专利技术涉及数据挖掘和复杂网络分析领域,特别涉及动态社会网络社团划分方法,具体是一种基于增量聚类的动态社会网络社团结构演化方法及系统。
技术介绍
随着信息科学技术的发展,各个领域中的网络数据呈指数级增长,如邮件通信中各个越来越多的邮件网络,电话通信网络中积攒下来的电话通信网络,生物科学领域的蛋白质网络等等。对于这些网络数据的研究可以帮助相关人员分析网络特性进而达到充分利用这些网络的目的。在各种类型的复杂网络中,存在一些随着时间的变化而演化的网络,如近年来,越来越多的研究人员使用图理论来研究动态演化网络。将网络看成一个图模型,其中图中的节点表示网络中的个体,边表示节点之间的联系。在网络中,节点之间相互联系并彼此之间交换信息。聚类表示网络中特征相似的节点之间的分组,也可以称为社团。从本质上而言,社团划分将彼此之间有紧密联系的节点加入到同一个社团,彼此之间联系不紧密的节点加入到了不同的社团。传统的社会网络分析方法将网络看作一个静态网络。静态网络方法对于动态网络的处理为把所有时刻的动态网络看作一个网络或者把动态网络按照时刻分割成一系列网络快照,对每一个快照使用静态方法分析。这种处理方法忽略了社团的一个重要特征——社团随时间演化的特性。现实世界的网络经常随着节点或边的增加删除而发生变化,如,邮件网络中,由于用户的工作和兴趣的变化,不同用户间的通信状态随时间动态的变化;论文合作者关系网络中,由于论文作者研究邻域的改变,作者之间的合作关系也会随之发生变化;微博网络中,由于博友们之间的兴趣爱好发生变化,不同博友之间的互动也会随之发生变化等。以上这些场景可以分成两种类型:慢速演变网络和快速演变网络。论文合作者网络属于慢速演变网络,在这种网络中,节点或边的加入往往需要几周甚至几个月。电话通信网络属于快速演变网络,在这种网络中,节点或边的加入可能只需要几秒钟。由于动态社会网络演化过程研究的复杂性以及实验数据的匮乏,动态社会网络的社团结构检测研究还处于刚刚起步的阶段。随着一些动态网络数据集的公开化,研究人员可以监测真实网络的动态演化过程,这使得对网络中社团结构的形成、演化和解体等现象的研究成为了可能。动态社会网络的社团结构检测方法主要分为基于增量聚类和基于演化聚类两种类型的社团检测方法。演化聚类的概念是由Chakrabarti等人提出的。算法框架依据动态网络变化缓慢的基本特征,在对每个时刻的网络进行聚类时,同时考虑两个相互冲突的准则,既要使聚类结果与当前时刻的网络结构尽量一致,又要使当前聚类结果与上一时刻的聚类结果差异较小。演化聚类方法引入了快照代价(SnapshotCost)和时间代价(TemporalCost)两个概念,总体目标函数为:。快照代价用于评测对于某个网络快照的聚类结果的质量,而时间代价用于校准当前聚类结果对于历史数据或者历史聚类结果的符合度。演化聚类算法的目标是最小化总体目标函数。基于这一框架,Chi等人基于谱聚类提出了保持聚类质量(PCQ)和保持聚类成员(PCM)两个框架;Lin等人通过贝叶斯方法提出FacetNet框架。然而由于网络规模的不断增大及演化聚类方法自身的限制,演化聚类方法需要很长的计算时间。这种方法不适用于大规模动态网络的社团划分。增量聚类利用相邻时刻网络社团结构变化不明显的特性,对于初始时刻的网络利用静态划分的方法进行社团划分。然后接下来时刻的网络是以其前一时刻社团划分的结果为基础,结合网络中节点和边的细微变化,根据相关算法对前一时刻的社团结构进行调整,得到符合该时刻的网络社团结构。Nguyen等人提出了快速社团划分自适应算法,这种算法是一种基于模块度计算的自适应算法,能够检测和追踪动态社会网络的社团结构。Ma等人提出了CUT算法,当社会网络在不同的时刻变化时,该算法只需跟踪社团的种子节点来更新社团结构,不需要重新计算整个网络。Takaffoli等人提出了使用静态L-度量的方法检测动态社团。基于动态网络中相邻时刻网络变化很小的特性,增量聚类方法通过只处理变化的节点或边的方法能够快速的计算出网络的社团结构,使用于大规模网络,但是这种方法会降低聚类的质量。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供了一种基于增量聚类的动态社会网络社团结构演化方法。这种方法可以快速的计算出网络的社团结构并且由于考虑了与历史社团结构的偏移情况,从而不会降低网络的聚类质量。本专利技术所采用的技术方案是:将动态网络划分为一系列连续时刻的网络快照,使用改进型的PageRank算法得到每一个时刻的核心节点和核心子图。对初始时刻的核心子图使用基于层次聚类的社团检测算法来找到核心社团结构;对于后续时刻的核心子图使用增量聚类算法得到核心社团结构;如果得到的核心社团结构偏离初始时刻核心社团结构较大,则使用基于层次聚类的社团检测算法来重新得到核心社团结构并将其视为新的初始核心社团结构;最后使用扩展方法扩展核心社团结构,得到整个网络的社团结构。其实现步骤如下:(1)输入t=[0…n]时刻的网络,利用基于节点权重的改进型PageRank(MP)算法找到每一个时刻的核心节点KVt及核心子图Kt。核心子图节点的选择是由不同的网络的不同特征确定的。由于结点的PR*值越大代表这个节点在网络中越重要,选择网络中PR*值比较大的一些节点作为网络的核心节点。MP算法公式为:PR*(vi)=(1-wviΣk=1mwvk)×Σvi∈N(vi)PR*(vj)wvj+wviΣk=1mwvk]]>其中,是节点vi的度,是整个网络中所有节点的度值的总和,PR*(vj)是节点vj的权重值。(2)在t=0时刻,利用基于层次聚类的社团检测算法找到初始时刻的核心社团划分CS0;(3)在t(t>0)时刻,利用基于增量聚类的快速社团划分方法找到t时刻的核心社团划分CSt。其步骤包括:①初始化t时刻的核心社团结构KSt为t-1时刻的核心社团结构KSt-1,即KSt=KSt-1;②在核心社团结构KSt中删除Kt中不包含的边和节点;③在核心社团结构KSt中根据每一个社团的连通性判断该社团是否需要分裂;④对于所有Kt含有的节点而Kt-1不含有的节点,根据节点与每一个社团的亲密度来判断该节点是否需要加入某一个社团。当新加节点v和核心社团结构KSt中的所有节点都没有联系时,新建一个社团并将新加节点v加入该社团;当新加节点v只和社团结构KSt中的一个社团有联系时,将v加入到该本文档来自技高网
...

【技术保护点】
一种基于增量聚类的动态社会网络社团结构演化方法,其特征在于,包括以下步骤:(1)输入t=0时刻的网络,利用静态社团划分算法找到核心子图的初始社团划分KS0,并将KS0扩展到全网得到整体网络的初始社团结构CS0;(2)输入t(t>0)时刻的网络,利用基于增量聚类的快速社团划分方法找到核心社团结构KSt,并将KSt扩展到全网得到该时刻整体网络的社团结构CSt;(3)得到一个较长时间段内的社团结构时间演化序列{CS0,CS1,…,CSt,…,CSn},发现动态社团结构的演化规律。

【技术特征摘要】
1.一种基于增量聚类的动态社会网络社团结构演化方法,其特征在于,包括以下步骤:
(1)输入t=0时刻的网络,利用静态社团划分算法找到核心子图的初始社团划分KS0,并
将KS0扩展到全网得到整体网络的初始社团结构CS0;
(2)输入...

【专利技术属性】
技术研发人员:刘瑶刘峤秦志光其他发明人请求不公开姓名
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1