一种基于多标签传播的重叠社团挖掘方法技术

技术编号:19594613 阅读:26 留言:0更新日期:2018-11-28 05:18
本发明专利技术公开了一种基于多标签传播重叠社团挖掘方法,属于复杂网络技术领域,该方法能够从网络中挖掘重叠社团结构。包括以下步骤:首先,利用LeaderRank方法对网络中的节点进行重要性排序,从而确定节点的更新顺序,并给每个节点分配一个唯一的标签;其次,计算出所有节点间的相似性等到相似性矩阵,利用节点间的相似性设计标签的更新策略,通过标签更新策略进行标签传播;最后,完成社团划分,具有相同标签的节点属于同一个社团,具有多个标签的节点属于重叠节点。本发明专利技术较传统的多标签传播重叠社团挖掘方法而言,能够更加快速准确划分出重叠社团结构。

【技术实现步骤摘要】
一种基于多标签传播的重叠社团挖掘方法
本专利技术属于复杂网络
,涉及一种基于多标签传播的重叠社团挖掘方法。
技术介绍
在现实生活中存在着各种各样的复杂系统,如果将复杂系统的个体抽象为节点,将复杂系统中的个体与个体之间的联系抽象为边,那么就可以将一个复杂系统抽象为一个复杂网络。越来越多的复杂系统的结构建模都可以利用复杂网络来完成,例如计算机网络、生物网络、社交网络等。随着科技的快速发展,人们对复杂网络的研究不断深入,社团结构作为复杂网络中的重要属性也逐渐得到人们的重视。所谓社团结构就是:同一社团内节点之间连接紧密,而不同社团内节点之间连接稀疏。而对复杂网络中的社团结构研究,能够帮助我们更好的理解和分析复杂网络的结构和功能,了解网络的动力学行为。因此,如何得到复杂网络的社团结构对复杂网络研究而言具有非常重要的意义。为了得到复杂网络的社团结构,大量的社团挖掘方法被相继提出,然而大多数的社团挖掘方法仅仅只能用于非重叠网络,也就是说,网络中的每个节点只属于某一个特定的社团中,不存在一个节点同时属于多个社团中。然而这与现实世界不相符,在现实世界中社团往往是可以相互重叠的,例如在社会关系网络中,一个人可以同时拥有同事、家人、同学、亲人这些身份中的两个或多个不同的身份。如果仅仅使用非重叠的社团挖掘方法去划分社团,那么将很难得到准确的社团结构。因此,进一步研究重叠社团挖掘方法具有一定的理论意义和实际意义。Steve等人首次将标签传播的思想运用到重叠社团挖掘中,提出了COPRA方法,该方法允许每个节点携带v个标签,在传播过程中一次传递多个标签,当完成标签传播后拥有多个标签的节点为重叠节点,重叠节点所在的社团为重叠社团。该方法具有较低的复杂度,适用于大型网络,但是当节点所属社团分布不均时,就很难找到一个合适的参数v,使得方法难以准确地得到社团结果。Xie等人提出一种SLPA方法,方法通过记录每个节点在刷新迭代过程中的历史标签序列,利用概率阈值删除出现频率小的标签最终得到社团结构,但该方法仍需要一个合适的概率阈值参数,并且采用的随机更新策略导致结果存在随机性。
技术实现思路
本专利技术的目的是提供一种基于多标签传播的重叠社团挖掘方法,解决现有的多标签重叠社团挖掘方法因采用随机更新策略导致结果不稳定,以及需要输入额外参数的问题。本专利技术所采用的技术方案是,一种基于多标签传播的重叠社团挖掘方法,具体步骤如下:步骤1、初始化阶段,利用LeaderRank方法计算出网络中所有节点的LR值,并按LR值的降序对所有节点进行排序,从而确定更新顺序,并给每一个节点分配一个唯一的标签;步骤2、设计标签传播策略,根据步骤1中得到的节点排列顺序,计算每个节点与其相邻节点的节点相似性,开始传播更新标签直至标签数量达到最小;步骤3、进行社团划分,拥有相同标签的节点属于同一个社团,具有多个标签的节点属于重叠节点,重叠节点所在的社团为重叠社团。本专利技术的特点还在于,步骤1的具体步骤为:步骤1.1、先在所述网络中加入一个背景节点,将其与网络中的所有节点相连,得到一个N+1个节点的强连接网络;步骤1.2、给除背景节点以外的每个节点均分配1单位的LR值;步骤1.3、将步骤1.2中分配给每个节点的1单位的LR值平均分配给其所有邻居节点;步骤1.4、将步骤1.3中分配到每个节点的LR值再平均分配给其所有邻居节点;步骤1.5、重复步骤1.4中的过程,当网络中所有节点的LR值趋于稳定步骤停止,即达到稳定状态,此时,每一个节点i的LR值为:其中,N(i)表示节点i的邻居节点集合,j为节点i的邻居节点集合中任意一个节点,kj表示节点j的度,sj(t)表示第t次迭代节点j的LR值,si(t+1)表示第t+1次迭代节点i的LR值;步骤1.6、将背景节点的LR值平均分配给除背景节点外的所有节点,此时,每一个节点i的LR值为:其中,tc表示收敛次数,Si表示收敛时节点i的最终LR值,si(tc)表示第tc次迭代节点i的LR值,sg(tc)表示稳定状态下背景节点g的LR值,N表示网络中的节点数量;步骤1.7、将不包括背景节点在内的所有节点按照LR值降序排序,并给每一个节点分配一个唯一的标签(cx,bx),其中cx节点所在的社团为cx,bx表示节点属于社团cx的从属系数,初始时bx为1。步骤2具体步骤为:步骤2.1、计算出步骤1.7中得到的节点排列顺序中所有节点与其邻居节点间的节点相似性,得到相似性矩阵:其中Γ(x)表示节点x的邻居节点与节点x本身构成的集合,Γ(y)表示节点y的邻居节点与节点y本身构成的集合;步骤2.2、开始传播标签,假设节点x的标签为(cx,bx),节点x有邻居节点y、邻居节点z......邻居节点w,且每个邻居节点的标签分别为(cy,by)(cz,bz)......(cw,bw),节点x与邻居节点y、邻居节点z......邻居节点w之间的节点相似性均为u,标签从节点x的所有邻居节点传播到节点x,传播过程中每个邻居节点的从属系数分别乘以该邻居节点与节点x之间的节点相似性;得到节点x更新后的标签集合:Lx:{(cy,u×by),(cz,u×bz)......(cw,u×bw)}步骤2.3、设定阈值p,当u×bw<p时,删除标签,当u×bw≥p时,则保留标签,最后对节点x的标签从属系数进行标准化;其中,u×bw表示节点x的标签集合Lx中第w个标签的从属系数,n表示节点x的标签数量;步骤2.4、重复步骤2.2和步骤2.3的标签传播过程。由于初始时,标签数量等于网络中的节点数量,随着节点标签的不断更新传播,标签数量在不断减少,直至标签数量达到最小值,停止传播。本专利技术的有益效果是:(1)一种基于多标签传播的重叠社团挖掘方法,对节点进行重要性排序,确定了节点的更新顺序,从而减少方法不必要的更新和标签逆流现象,使得方法完成社团划分的速度更快;(2)一种基于多标签传播的重叠社团挖掘方法,相对于传统的多标签传播方法而言利用节点间的相似性和领导标签设计了标签传播策略,解决了传统方法的随机性问题,从而进一步提高了方法的准确率。附图说明图1是本专利技术一种基于多标签传播的重叠社团挖掘方法的流程图;图2是本专利技术一种基于多标签传播的重叠社团挖掘方法的初始化阶段流程图;图3是本专利技术一种基于多标签传播的重叠社团挖掘方法的标签传播阶段流程图;图4是本专利技术一种基于多标签传播的重叠社团挖掘方法实施例1中的R1网络;图5是本专利技术一种基于多标签传播的重叠社团挖掘方法实施例1中R1网络的标签传播过程;图6是本专利技术一种基于多标签传播的重叠社团挖掘方法实施例2中的美国大学生足球联赛网络。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术一种基于多标签传播的重叠社团挖掘方法,具体流程如图1所示:步骤1、初始化阶段,利用LeaderRank方法计算出网络中所有节点的LR值,并按LR值的降序对所有节点进行排序,从而确定更新顺序,并给每一个节点分配一个唯一的标签;如图2所示,具体步骤为:步骤1.1、先在所述网络中加入一个背景节点,将其与网络中的所有节点相连,得到一个N+1个节点的强连接网络;步骤1.2、给除背景节点以外的每个节点均分配1单位的LR值;步骤1.3、将步骤1.2中分配给每个节点的1单位的LR本文档来自技高网
...

【技术保护点】
1.一种基于多标签传播的重叠社团挖掘方法,其特征在于,具体步骤如下:步骤1、初始化阶段,利用LeaderRank方法计算出网络中所有节点的LR值,并按LR值的降序对所有节点进行排序,从而确定更新顺序,并给每一个节点分配一个唯一的标签;步骤2、设计标签传播策略,根据步骤1中得到的节点排列顺序,计算每个节点与其相邻节点的节点相似性,开始传播更新标签直至标签数量达到最小;步骤3、进行社团划分,拥有相同标签的节点属于同一个社团,具有多个标签的节点属于重叠节点,重叠节点所在的社团为重叠社团。

【技术特征摘要】
1.一种基于多标签传播的重叠社团挖掘方法,其特征在于,具体步骤如下:步骤1、初始化阶段,利用LeaderRank方法计算出网络中所有节点的LR值,并按LR值的降序对所有节点进行排序,从而确定更新顺序,并给每一个节点分配一个唯一的标签;步骤2、设计标签传播策略,根据步骤1中得到的节点排列顺序,计算每个节点与其相邻节点的节点相似性,开始传播更新标签直至标签数量达到最小;步骤3、进行社团划分,拥有相同标签的节点属于同一个社团,具有多个标签的节点属于重叠节点,重叠节点所在的社团为重叠社团。2.根据权利要求1所述的一种基于多标签传播的重叠社团挖掘方法,其特征在于,步骤1的具体步骤为:步骤1.1、先在所述网络中加入一个背景节点,将其与网络中的所有节点相连,得到一个N+1个节点的强连接网络;步骤1.2、给除背景节点以外的每个节点均分配1单位的LR值;步骤1.3、将步骤1.2中分配给每个节点的1单位的LR值平均分配给其所有邻居节点;步骤1.4、将步骤1.3中分配到每个节点的LR值再平均分配给其所有邻居节点;步骤1.5、重复步骤1.4中的过程,直至网络中所有节点的LR值达到稳定状态,此时,每一个节点i的LR值为:其中,N(i)表示节点i的邻居节点集合,j为节点i的邻居节点集合中任意一个节点,kj表示节点j的度,sj(t)表示第t次迭代节点j的LR值,si(t+1)表示第t+1次迭代节点i的LR值;步骤1.6、将背景节点的LR值平均分配给除背景节点外的所有节点,此时,每一个节点i的LR值为:其中,tc表示收敛次数,Si表示收敛时节点i的最终LR值,si(tc)表...

【专利技术属性】
技术研发人员:王林饶仁杰
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1