当前位置: 首页 > 专利查询>兰州大学专利>正文

一种基于相似性的局部社团检测方法技术

技术编号:20845551 阅读:32 留言:0更新日期:2019-04-13 09:03
一种基于相似性的局部社团检测方法——NSA(Node Similarity based Algorithm),是一种基于相似性的高效的、稳定的局部社团检测方法,该方法的实现过程包含两个阶段,第一阶段构建网络的初始社团结构,第二阶段对初始社团结构进行优化,将其中一些较小的、稀疏的社团进行合并,得到最终的社团结构。本发明专利技术能够解决全局方法因效率低无法适用于大规模网络的问题,同时能解决许多现有局部方法性能不稳定、检测结果质量不佳的问题。同时,本发明专利技术还提出了一个度量指标——community metric,综合衡量社团的规模以及稀疏程度,可以有效地进行小社团的合并。

【技术实现步骤摘要】
一种基于相似性的局部社团检测方法
本专利技术属于复杂网络分析的
,涉及一种从复杂网络中检测社团结构的方法,具体涉及一种基于节点相似性的局部社团检测方法。
技术介绍
社团结构是复杂网络最为显著的结构特征,网络中的顶点可以自然地划分为多个分组,同一分组内部顶点之间的连接比较稠密,而位于不同分组的顶点之间的边则相对稀疏,其中每一分组即为一个“社团”。在复杂网络中,社团往往对应于网络的功能单元。例如,WWW网络中相同主题的Web页面分组;蛋白质分子相互作用网络中的功能模块,新陈代谢网络中的代谢通道;社会网络中拥有共同特征的一组人,如科学家合作关系网络中研究方向相同的科学家组成的研究团队,恐怖网络中的恐怖组织等。检测网络的社团结构,可以透过结构特征探索、推断、预测网络及相关组件的功能,可以识别网络的性能瓶颈,改善网络的性能,提升网络的服务质量,还可以探索网络的演化机制以及动力学行为。因此,社团检测的研究不仅具有重要的理论研究意义,而且具有很强的实际应用价值。研究人员利用网络的相关特征,已经提出了很多算法进行社团检测,提取社团结构。基于图论的方法一般将社团检测作为传统的图剖分问题进行研究,利用图剖分方法将网络划分为多个子网络。例如,Kernighan-Lin方法[1]首先将网络随机划分为两个子网络,然后通过重复交换两个子网中的部分顶点,使得预先给定的增益函数达到最大值。层次聚类方法或以分裂的方式或以凝聚的方式或以二者混合的方式进行社团检测。例如,GN算法[2],[3]通过重复从网络中删除介数最高的边检测社团结构,其输出是一个树状图,表示层次嵌套的可能的网络划分,对应于度量指标“模块度”值[3]最大的一个层次即为最终的社团结构。FastQ[4],[5]首先将每一个顶点作为一个社团,然后通过重复将相关社团进行合并提取社团结构。其输出同样为树状图,其上对应于模块度最大的层次为最终结果。Zarandi等人[6]先移除网络中相似性较小的边得到初始社团,然后将其中一些进行合并得到最终社团结构。基于模块度优化的算法利用模块度的物理含义——模块度值越大,社团结构越紧凑,质量越高——将模块度作为目标函数,通过对其进行优化提取社团结构。FastQ[4],[5]重复合并能使得模块度增量最大的两个社团。Louvain算法[7]首先将每个顶点作为一个社团,然后将每一顶点移入能使得模块度增益最大的一个社团。SLM(SmartLocalMoving)算法[8]通过重复使用网络的分裂与顶点的移动策略搜索能使得模块度达到最大值的可能方案。LPA(LabelPropagationAlgorithm)算法[9]首先为网络中的每个顶点赋一个唯一的标签,随后将每个顶点的标签更新为其邻居中出现最为频繁的一个标签,直到每个顶点的标签均为其邻居中占多数的标签。算法结束时,具有同样标签的顶点构成一个社团。该算法简单、效率高,因此其后提出了许多变体或改进算法。例如,Barber等人[10]为标签传播过程添加了一些约束,提出了一系列变体算法,LPAm是其中影响最大的一个,它试图在标签传播过程中使得模块度达到最大值。Chin等人[11]利用互近邻的数目得到初始社团,对标签传播过程添加约束,并用带约束的标签传播算法将网络中剩余的顶点添加于相应的社团中。Ding等人[12]利用基于密度的聚类算法Fdp[13]和切比雪夫不等式从网络中选取社团的中心点,并用改进的LPA算法将所选中心点的标签传播于整个网络。基于密度的算法在网络上定义了“密度”的概念,并利于此概念进行社团检测。SCAN算法[14]借用了基于密度的聚类算法DBSCAN[15]的思想从网络中识别社团,HUB节点以及孤立点。SCAN++算法[16]从SCAN演化而来,使用了新的数据结构并减少了计算密度的次数,因此降低了算法的时间消耗。IsoFdp算法[17]将顶点映射为一个低维的流形空间中的数据点,并利用基于密度的聚类算法Fdp[13]提取最终的社团结构。LCCD算法[18]同样利用Fdp算法[13]确定网络的社团中心,接着利用一个局部搜索过程对社团进行扩张。基于网络动力学的方法通过在网络上模拟动力学过程探查网络的社团结构。随机游走是典型的一种网络动力学过程,由于社团结构的特点——社团内部连接稠密,而社团之间的边比较稀疏——因此,遍历者在短距离的游走过程中更倾向于被陷入一个社团内部,跨越社团边界游走进入另外一个社团的可能性较小,在一趟短距离的游走过程中所访问的顶点在同一个社团的可能性极大。Walktrap算法[19]计算在一趟随机游走过程中从一个顶点游走到另一个顶点的概率,继而计算顶点之间、社团之间的相似性。PPC算法[20]将整个网络作为一个社团,然后利用随机游走计算顶点之间的相似性并利用该相似性重复将网络划分为子网络。RWA算法[21]利用随机游走计算顶点属于一个社团的概率,并通过持续吸引最相似的顶点加入社团对其进行扩张。除了基于随机游走的方法之外,Attractor算法[22]利用距离动力学过程检测社团结构,顶点之间的交互会改变顶点之间的距离,而距离的改变反过来能够影响顶点之间的交互作用。在这种交替作用下,同一社团的顶点逐渐靠近,不同社团的顶点逐渐远离。谱分析方法利用与网络相关的各种矩阵的特征值、特征向量检测网络的社团结构。例如,Amini等人[23]基于归一化的拉普拉斯矩阵使用谱聚类方法得到网络初始的划分,将其通过一个极大似然估计算法拟合随机块模型提取最终的社团结构。deLange等人[24]通过检测归一化的拉普拉斯矩阵的特征谱从猕猴和猫的解剖神经网络提取社团结构,同时从秀丽线虫的微观神经网络中检测社团结构。Krzakala等人[25]基于非回溯随机游走过程对应的非回溯矩阵,提出了一系列谱分析算法检测网络的社团结构。Shi等人[26]提出的LLSA算法利用Lanczos方法获取概率转移矩阵最大特征值对应的特征向量的近似值,该特征向量的元素给出了对应顶点属于某个社团的概率。上述这些方法大多为全局方法(globalmethods),它们检测社团结构时往往需要网络的一些全局信息作为先验知识,如网络中社团的数目,网络相关的矩阵的特征值、特征向量等。但随着大数据时代的到来,网络的规模越来越大,这些全局信息越来越难以获取。另外,这些全局方法往往时间复杂度较高,运算效率低下。这些缺陷使得这些全局方法无法有效地适用于大规模的网络。为了克服全局方法的这些缺陷,研究人员也提出了一些局部方法(localmethods)。例如,上述的LPA及其大多数变体算法仅根据顶点的邻居信息确定将其标签更新为哪个邻居顶点的标签;LCCD考虑顶点的局部密度和相对于大密度顶点的距离确定社团的中心顶点,并使用一个局部搜索过程从中心点开始扩张社团;LLSA算法利用快速热核扩散(fastheatkerneldiffusing)方法对网络进行采样得到包含一个社团中全部顶点的子网络,然后对该子网络的转移矩阵执行Lanczos方法获取其最大特征值对应的特征向量,其元素给出了对应顶点的社团归属。此外,ComSim算法0通过识别网络中顶点的圈子获取社团核心,然后将其余顶点分配给与其最相似的社团。每一个圈子是一个顶点构成的访问链,从某顶点出发沿其出本文档来自技高网...

【技术保护点】
1.一种基于相似性的局部社团检测方法,其特征在于,该社团检测方法由两个阶段构成,第一阶段基于度中心性及顶点之间的相似性构建初始的社团结构,第二阶段对初始社团结构进行调优,合并其中一些小社团或稀疏社团,得到最终的社团结构;具体如下:第一阶段:构建初始社团结构首先从网络中选择度最大的顶点,将其作为一个社团的代表点,并将与其最相似的邻居顶点加入该社团中,如果与其最相似的邻居顶点不止一个,则选取其中度小的一个作为其最相似的邻居;然后从剩余的顶点中选出度最大的顶点,将其加入与其最相似的邻居顶点所在的社团;如果与其最相似的邻居顶点尚未加入某个社团,则为其创建一个新社团,将所选的度最大的顶点作为该新社团的代表顶点,并将与其最相似的邻居顶点加入该社团;重复此过程,直到网络中的每一个顶点都被分配到某个社团为止,至此,得到一系列社团,每一社团内的顶点之间紧密相连,这些社团构成网络的初始社团结构;上述过程中每一对顶点(u,v)之间的相似性sim(u,v)按照公式(1)计算

【技术特征摘要】
1.一种基于相似性的局部社团检测方法,其特征在于,该社团检测方法由两个阶段构成,第一阶段基于度中心性及顶点之间的相似性构建初始的社团结构,第二阶段对初始社团结构进行调优,合并其中一些小社团或稀疏社团,得到最终的社团结构;具体如下:第一阶段:构建初始社团结构首先从网络中选择度最大的顶点,将其作为一个社团的代表点,并将与其最相似的邻居顶点加入该社团中,如果与其最相似的邻居顶点不止一个,则选取其中度小的一个作为其最相似的邻居;然后从剩余的顶点中选出度最大的顶点,将其加入与其最相似的邻居顶点所在的社团;如果与其最相似的邻居顶点尚未加入某个社团,则为其创建一个新社团,将所选的度最大的顶点作为该新社团的代表顶点,并将与其最相似的邻居顶点加入该社团;重复此过程,直到网络中的每一个顶点都被分配到某个社团为止,至此,得到一系列社团,每一社团内的顶点之间紧密相连,这些社团构成网络的初始社团结构;上述过程中每一对顶点(u,v)之间的相似性sim(u,v)按照公式(1)计算其中Γ(u)和Γ(v)分别是顶点u和v的邻居顶点构成的集合;第二阶段:合并小社团、稀疏社团通过合并规模过小或者内部连接过于稀疏的社团对初始社团结构进行调优,得到最终的社团结构,要达到这一目的,首先需要确定哪些是需要合并的社团,其次需要选择将其并入哪些社团;确定哪些是需要合并的社团原则:通过度量指标——社团...

【专利技术属性】
技术研发人员:程建军苏醒杨海娟李龙杰张景明赵世燕陈晓云
申请(专利权)人:兰州大学
类型:发明
国别省市:甘肃,62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1