一种复杂网络中的社区划分方法技术

技术编号:3544841 阅读:318 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种复杂网络中的社区划分方法,以若干个不同的局部带有影响力的节点为核心,并使节点的影响力从核心逐层向外均匀扩散,最终形成了以影响力最大的节点为核心,逐层扩展中节点的影响力不断衰减,它们之间相互关联形成一个局部区域,扩展到方法的停止,节点影响力很小,到达该局部区域的网络边缘。对于一个大规模的无序复杂网络,能够迅速的定位不同重要程度的节点位置,挖掘出一些更细粒度上的信息,同时可以保持了原有网络的结构特性不变,对原有的大规模复杂网络进行简化与规模的缩小,不仅可以提高搜索的效率,更可以从宏观上更清晰的分析出大规模网络的结构。

【技术实现步骤摘要】

本专利技术属于数据挖掘领域,涉及一种社区划分方法,具体设计一种复杂网络中的社区划分方法
技术介绍
20世纪90年代以来,以互联网为代表的信息技术的迅猛发展使人类社会大步迈入了网络时代。复杂网络无处不在,在现实世界中,从互联网万维网,从城市公路网到航空路线图,从超大规模集成电路到大型电力网格,从细胞神经网络到蛋白质相互作用网络;复杂网络还可以用来描述人与人之间的社会关系,科学家之间的合作关系,论文之间的引用关系,生物界中物种之间的捕食关系;甚至文本中词与词之间的语义关系等,都可以看作是复杂网络,可以说,人们已经生活在一个充满着各种各样的复杂网络的世界中。如图1所示是2001年美国A.L.Barabasi研究组构造的芽殖酵母蛋白质相互作用的复杂网络,芽殖酵母是生物学研究中广泛应用的单细胞真核模式生物,将蛋白质抽象为节点,蛋白质直接的相互作用抽象为边,用网络的方法构建出蛋白质相互作用网络对系统研究细胞内各种生命活动有着重要意义,从图中可以看出,蛋白质交互网络中,每个蛋白质的与其他的蛋白质连接不是均匀的,蛋白质的连接度服从幂率分布,即越重要的蛋白,与它连接的线段数目越多,如果有针对性的删除网络中连接度非常大的节点,网络很容易被破坏,进一步研究发现越是年龄古老的蛋白,与它连接的线段数目越多,说明了蛋白质网络结构上的无标度特性。这些都是复杂网络所包含的典型特性,下面分别介绍:小世界特性:看似毫不相干、形态各异的真是网络都是受某些简单规则驱动自组织形成的,它们都具有一些相同的拓扑性质,小世界网络既有与规则网络类似的聚集特性,又具有与随机网络类似的较小的平均路径长度。由于不同集团之间的长程连接导致网络的平均直径较小,即为小世界特性;无标度特性:大量的复杂网络中,节点的度分布明显地不同于泊松分布,而是具有幂律形式,这种幂律分布的形式与分形(Fractal)中的自相似(self-similarity)特点一样,没有明显的特征长度,如果把函数曲线放在双对数坐标系下,则其大致成直线,即函数的相对变化与变量的相对变化成线性关系,这正是自相似的数学含义,即为无标度特性;社区特性:网络中呈现出社区结构,或者说是抱团(clustering)特征。大量实证研究表明,许多网络是异构的,可以被分解为若干个社区,各个社区内部节点之间存在较多的连接,而-->不同社区之间的节点连接则相对较少;目前,复杂网络研究已经渗透到数理学科、生命学科和工程学科等众多不同的领域,对复杂网络的定量和定性特征的科学理解,已成为网络时代科学研究中一个极其重要的挑战性课题,甚至被称为“网络的新科学(new science of networks)”。而复杂网络中的社区结构是网络高聚集性与模块化特征的反映。在网络中自动搜索或发现社区结构,具有重要的实用价值。例如,社会网中的社区可能代表具有共同兴趣、爱好的社会团体;科学引文网中的社区可能代表与某一主题相关的论文;生物化学网络或电子电路网络中的社区可能代表功能相关的蛋白质组或某一类功能单元;万维网中的社区可能代表主题相关的若干网页,可进一步用于提高网络搜索结果的相关性和准确性,实现信息过滤、热点话题跟踪和网络情报分析等。因此,如何从大规模的复杂网络中识别不同类型的节点,对异构的节点类型其进行分类,从而发掘网络中的社区结构,有助于我们更好地理解系统不同层次的结构和功能特性。采用物理场中的物质粒子间的相互作用及其场描述的方式,引入抽象的网络拓扑空间进行处理,通过节点之间的相关作用,产生了节点影响力的叠加,由于节点位置的差异,节点所受到网络中其它所有节点对其的影响力以及它扩散到网络中其它节点的影响力都是不同的,可以很好的刻画出复杂网络拓扑中节点分布的不均匀性和局部社区聚集的特性。同时网络中节点间的相互作用具有局域特性,每个节点的影响能力会随网络距离的增长而快速衰减,同时节点作用力的范围较小,可以忽略较远范围外的节点影响力值的叠加计算,从而有效减少运算复杂度。在一个网络拓扑中,与局部核心节点紧密连接的节点,即为网络中的骨干成员,在这个局部的区域内,它们受到了核心节点的影响与作用,同时也反作用的影响着该区域内的核心节点;重叠节点是从社区提取出骨干成员后,网络呈现出不同局部中心的社团结构,如果两个社区之间的节点存在着交集,即该节点与多个局部社区都存在相互的关联和影响,称为重叠节点,这种类型的节点更多的承担着多面性和中立性的角色,孤立节点是在局部中心的扩散过程中,没有被该局部中心影响力所覆盖的一些外围节点,这类的节点在网络拓扑中往往处于边缘的位置,它们对网络中其它节点的影响力很少,同样,也很少受到其它节点对它的影响。对于社区划分方法,传统可分为两类:自下而上的凝聚式方法(agglomerative methods)和自上而下的分裂式方法(division methods)。第一种是对于网络中的任意一对节点vi和vj,定义一个描述节点间连接紧密程度的量Wij。算法开始时,去除网络中所有的边,将剩下的每个节点视为一个个单独的社区。按照Wij由大到小的顺序,依次连接网络中的节点。在每一步,网络中的节点组成了若干个连通分支,随着算法的进行,连通分支数量越来越少,最后,所有的节点均连接到一个分支中。算-->法进行的每一步所得到的分支构成了一个树状图(dendrogram)。第二种是分裂式方法:该方法与凝聚式方法正好想法,是从原网络出发,按照一定的规则,依次移除网络中的边,从而将网络分解成越来越小的连通分支,直至最后所有节点自成一个社区。复杂网络中的社区现象,已经成为复杂网络领域中一个非常重要的研究热点。Girvan,Newman等很多著名的科学家都提出了自己的社区挖掘方法,对复杂网络的社区挖掘目前呈现百家争鸣的状态,然而,不同算法的时间、空间复杂度也相差很大。下面列举3种比较广泛应用的方法。M.Girvan与M.E.J.Newman在2001年提出了基于边介数的社区发现方法,即GN算法。这种算法在社会学的分级聚类方法中属于分裂方法。提出以边介数作为划分不同社区的标准。边介数定义为网络中所有最短路径经过该边的次数。根据社区的特性可知,社区间的最短路径通过社区间边的频率远大于社区内部的边,所以社区之间的边比社区内部的边有更大的边介数,通过反复移除这些介数较高的边就能使整个网络分解为不相连的社区。GN算法的核心算法如下:(1)计算网络中所有边的边介数(2)移除介数最高的边(3)重新计算所有受影响边的边介数(4)从2重复执行,直到所有的边都被移除GN算法的缺点:1、由于每次计算都要分析整个网络的介数,算法时间复杂度较高(O(mn)),n和m分别为网络的节点数和边数2、通过树状图把网络分解到节点,强迫任何一个节点必须属于一个社区,而并没有考虑是否真正有意义。Kernighan-Lin算法是一种贪婪(Greedy)算法,通过对社区内部以及社区间边的优化,对网络进行划分。算法的核心思想是引入一个增益函数Q,Q等于两个社区内部的边数之和减去这两个社区之间的边数,基于贪婪思想找到使Q的增益最大的划分。算法可以分为如下几个步骤:(1)指定规模或者随机地将现有网络划分为两个社区i和j;(2)分别从两个社区内各取一个节点Ni和Nj,计算并记录这两个节本文档来自技高网...

【技术保护点】
一种复杂网络中的社区划分方法,其特征在于,包括如下步骤: 步骤一:对于给定的拓扑结构,基于节点局部影响力的特性,选取整个网络结构中的影响范围,计算网络中所有节点相互作用之后而产生的影响力叠加值; 步骤二:选取影响力值最大的节点为中心,选取与该节点直接相连的节点为第一层,按跳数向外扩展,扩展与它相邻的邻居节点作为下一层,形成一个以影响力最大的节点为中心,各层节点中最大影响力数值不断下降趋势的区域; 步骤三:计算每层扩展节点对下一层节点和对上一层节点连接的边数的比值,当这个比值下降时,停止该局部中心的扩展;在扩展的过程中,如果在当前扩展层中存在节点的影响力数值大于前一层节点的最大影响力值,那么就删除该节点,并且对该次扩展的所有剩余节点,利用归属度对剩余节点中每个节点是否属于该局部区域进行判断;否则当前扩展层中存在节点的影响力数值都小于前一层节点的最大影响力值,全部归入该中心形成的局部社团; 步骤四:输出与该局部中心最大值节点存在紧密连接的所有成员,即属于该局部区域的骨干成员(它们对该局部影响力最大的节点都产生影响力的叠加,同时也被最大影响力的局部中心所影响和覆盖),结束本次扩展; 步骤五:对网络中剩余的节点,转到步骤二,直至网络中所有节点都被扩展过; 步骤六:输出不同局部社区之间的重叠节点和边缘节点,并对边缘节点进行社区归属的判断,统计它与已有局部社区的连接情况,判断该边缘节点是属于哪个局部社区,本方法结束。...

【技术特征摘要】
1、一种复杂网络中的社区划分方法,其特征在于,包括如下步骤:步骤一:对于给定的拓扑结构,基于节点局部影响力的特性,选取整个网络结构中的影响范围,计算网络中所有节点相互作用之后而产生的影响力叠加值;步骤二:选取影响力值最大的节点为中心,选取与该节点直接相连的节点为第一层,按跳数向外扩展,扩展与它相邻的邻居节点作为下一层,形成一个以影响力最大的节点为中心,各层节点中最大影响力数值不断下降趋势的区域;步骤三:计算每层扩展节点对下一层节点和对上一层节点连接的边数的比值,当这个比值下降时,停止该局部中心的扩展;在扩展的过程中,如果在当前扩展层中存在节点的影响力数值大于前一层节点的最大影响力值,那么就删除该节点,并且对该次扩展的所有剩余节点,利用归属度对剩余节点中每个节点是否属于该局部区域进行判断;否则当前扩展层中存在节点的影响力数值都小于前一层节点的最大影响力值,全部归入该中心形成的局部社团;步骤四:输出与该局部中心最大值节点存在紧密连接的所有成员,即属于该局部区域的骨干成员(它们对该局部影响力最大的节点都产生影响力的叠加,同时也被最大影响力的局部中心所影响和覆盖),结束本次扩展;步骤五:对网络中剩余的节点,转到步骤二,直至网络中所有节点都被扩展过;步骤六:输出不同局部社区之间的重叠节点和边缘节点,并对边缘节点进行社区归属的判断,统计它与已有局部社区的连接情况,判断...

【专利技术属性】
技术研发人员:韩言妮武文琛李德毅张书庆
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利