基于种子节点扩展重叠社区的发现方法、网络社区系统技术方案

技术编号:18400305 阅读:21 留言:0更新日期:2018-07-08 20:12
本发明专利技术属于社交网络分析技术领域,公开了一种基于种子节点扩展重叠社区的发现方法、网络社区系统,对节点进行过滤,去除边缘须图结构,运用种子选区算法选取传导性良好的种子集;种子扩展使用PPR向量扩展,形成核心重叠社区结构;使用传播算法剔除边缘须图结构重新加入核心重叠社区。本发明专利技术可用于大型社交网络的朋友推荐,商品推荐和广告投放;针对大型社交网络的特点,结合边缘须图过滤,种子集选取,种子扩展以及最后的传播算法实现了大型社交网络重叠社区发现的良好效果。

Discovery method of overlapping communities based on seed nodes and network community system

The invention belongs to the social network analysis technology field, discloses a discovery method based on the seed node expansion overlapping community, the network community system, filters the nodes, removes the edge graph structure, uses the seed selection algorithm to select the well guided seed set; the seed expansion uses the PPR vector expansion to form the core. Overlapping the community structure; using the communication algorithm to eliminate the edge graph structure and rejoin the core overlapping community. The invention can be used for friends recommendation, commodity recommendation and advertising for large social networks, with the features of large social networks, combination of edge graph filtering, seed selection, seed expansion and the final propagation algorithm to realize the good results of large social network overlapping community discovery.

【技术实现步骤摘要】
基于种子节点扩展重叠社区的发现方法、网络社区系统
本专利技术属于社交网络分析
,尤其涉及一种基于种子节点扩展重叠社区的发现方法、网络社区系统。
技术介绍
网络社区发现是当代网络分析科学中最热门的话题之一。许多感兴趣的网络,如社交网络,商品网络等呈现出社区结构的特点。社区结构一般来说是相比于外部群组的成员节点,内部有更高几率产生联系的群组节点。现有的基于全局网络的重叠社区发现算法存在开销较大的情况,没有针对社交网络所特有的性质进行深入挖掘,社区发现结果往往存在社区传导率较高的情况,导致全局性的重叠发现算法在社交网络重叠社区发现中结果并不理想。随着网络规模的扩大,基于全局网络的重叠社区发现算法的开销不断增大,算法性能下降明显,这是由于其算法本身需要综合网络所有节点或者边的某些特征的特性决定的。因此,基于全局网络的重叠社区发现算法不适合大型网络的重叠社区发现。综上所述,现有技术存在的问题是:目前现有的全局性重叠社区发现算法存在开销大的情况,在社交网络重叠社区发现中结果并不理想。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于种子节点扩展重叠社区的发现方法、网络社区系统。本专利技术是这样实现的,一种基于种子节点扩展重叠社区的发现方法,所述基于种子节点扩展重叠社区的发现方法包括:对节点进行过滤,去除边缘须图结构,运用种子选区算法选取传导性良好的种子集;种子扩展使用PPR向量扩展,形成核心重叠社区结构;使用传播算法剔除边缘须图结构重新加入核心重叠社区。进一步,所述基于种子节点扩展重叠社区的发现方法具体包括以下步骤:步骤一,边缘须图过滤;输入:原图G=(V,E);输出:核心网络G′=(V′,E′);步骤二,种子集选取;输入:核心网络G′=(V′,E′),预期重叠社区数k;输出:种子集S;步骤三,种子扩展;输入:核心网络G′=(V′,E′),种子集S,参数α,ε(0<α<1,ε→0);输出:核心重叠社区;步骤四,核心社区传播;输入:原图G=(V,E),核心网络G′=(V′,E′),核心社区Ci(i=1,2,......,k);输出:重叠社区。进一步,所述步骤一具体包括:(1)桥组件发现,初始化桥组件集合对图G所有的边ei(i=1,2,......)进行遍历,如果删除ei后产生两个子图,将ei加入Q,对所有的桥组件进行标记;(2)边缘须图过滤,通过移除桥组件获取边缘须图结构,节点数量设置固定值为10;遍历桥组件集合,检测桥组件两端结构节点个数,如果一端节点数量少于10个,则删除结构,如果节点数量大于10个,则桥组件标记清除。进一步,所述步骤二具体包括:(1)初始化种子集(2)使用Graclus算法对核心网络G′=(V′,E′)进行划分;通过Graclus算法本专利技术可以得到k个互不相交的集合Gi(i=0,1......,k);(3)计算集合中节点的社区节点质心距离dist(v,Ci);(4)选取质心距离最小的节点加入种子集S,通过社区质心距离计算,选取质心距离最小的节点加入到种子集S中。进一步,所述步骤三具体包括:(1)初始化种子扩展集合T,初始化PPR向量;选取种子集S中任意节点s,种子扩展集合T={s}∪{neighbors(s)},使用集合初始化PPR向量;(2)根据种子扩展集合T计算PPRScore;1)初始化xv=0,其中v∈V;2)初始化rv=0,其中v∈V\T;其中v∈T;3)进入循环;对任意rv>deg(v)×ε,更新xv=xv+(1-α)rv;对任意(v,u)∈E,更新更新结束循环;4)根据对节点进行排序,得到PPRScore;(3)计算社区传导性,对于排序列表中的每个顶点集合,利用计算集合的传导性,并将C设置为达到最小值的集合,社区Ci传导率表示分割值与两个集合总权重较小值的比值为:进一步,所述步骤四具体包括:(1)搜索社区结构中的桥组件;桥组件打上标记;(2)根据桥组件还原边缘须图结构,将原来做好标记的桥组件与相应的边缘须图结构相连,得到重叠社区。本专利技术的另一目的在于提供一种所述基于种子节点扩展重叠社区的发现方法的基于种子节点扩展重叠社区的发现系统,所述基于种子节点扩展重叠社区的发现系统包括:边缘须图过滤模块,用于将边缘须图结构剔除;种子集选取模块,用于在网络核心部分进行种子集选取;种子扩展模块,用于通过种子节点扩展出重叠社区核心重叠社区传播模块,用于将通过桥结构连接的每个边缘须图结构利用桥结构重新连接到另一个节点的社区。本专利技术的另一目的在于提供一种应用所述基于种子节点扩展重叠社区的发现方法的网络社区系统。本专利技术针对大型社交网络的特点,结合边缘须图过滤,种子集选取,种子扩展以及最后的传播算法实现了大型社交网络重叠社区发现的良好效果。本专利技术可用于大型社交网络的朋友推荐,商品推荐和广告投放。算法各阶段的时间复杂度如表1所示。边缘须图过滤阶段需要对图中的桥组件进行遍历,这需要花费O(|V|+|ε|)的时间。种子集选取过程使用的是Graclus分割算法,需要的时间。种子扩展阶段需要解决PPRScore计算的问题,这一阶段不容易分析出来,但它与输出的大小成比例,因此,它的复杂度为最后的传播阶段时间复杂度为O(|V|+|ε|)。表2给出了一些社交网络的数据集。利用这些社交网络数据集,对本算法和其他的一些比较著名的算法进行了比较。进行对比的算法有Oslom和Bigclam算法。表3给出了各算法的节点覆盖率、社区数量以及社区传导率仿真实验结果的比较。通过以上数据可以看出,基于种子选取的重叠社区发现算法在性能和结果上都要优于其他两种算法。表1是本专利技术实施例提供的基于种子节点扩展重叠社区的发现方法各阶段算法复杂度。表2是本专利技术实施例提供的基于种子节点扩展重叠社区的发现方法实验数据集。名称节点数总度数节点最大度数节点平均度数Orkut73133231992171693360.1Flickr1994422214450572790821.5Myspace2086141454590799282143.6表3是本专利技术实施例提供的基于种子节点扩展重叠社区的发现方法与其他算法的节点覆盖率、社区数量以及社区传导率实验结果对比。附图表说明图1是本专利技术实施例提供的基于种子节点扩展重叠社区的发现方法流程图。图2是本专利技术实施例提供的基于种子节点扩展重叠社区的发现系统结构示意图;图中:1、边缘须图过滤模块;2、种子集选取模块;3、种子扩展模块;4、核心重叠社区传播模块。图3是本专利技术实施例提供的基于种子节点扩展重叠社区的发现方法实现流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图对本专利技术的应用原理作详细的描述。如图1所示,本专利技术实施例提供的基于种子节点扩展重叠社区的发现方法包括以下步骤:S101:对节点进行过滤,去除边缘“须图”结构,运用种子选区算法选取传导性良好的种子集;S102:在种子扩展阶段,使用PPR向量将种子逐渐扩展,形成核心重叠社区结构;S103:剔除的边缘“须图”结构使用传播算法重新加入核心重叠社区中。如图2所示,本专利技术实施例提供的基于种子节点扩展重叠社区的发现系统包本文档来自技高网...

【技术保护点】
1.一种基于种子节点扩展重叠社区的发现方法,其特征在于,所述基于种子节点扩展重叠社区的发现方法包括:对节点进行过滤,去除边缘须图结构,运用种子选区算法选取传导性良好的种子集;种子扩展使用PPR向量扩展,形成核心重叠社区结构;使用传播算法剔除边缘须图结构重新加入核心重叠社区。

【技术特征摘要】
1.一种基于种子节点扩展重叠社区的发现方法,其特征在于,所述基于种子节点扩展重叠社区的发现方法包括:对节点进行过滤,去除边缘须图结构,运用种子选区算法选取传导性良好的种子集;种子扩展使用PPR向量扩展,形成核心重叠社区结构;使用传播算法剔除边缘须图结构重新加入核心重叠社区。2.如权利要求1所述的基于种子节点扩展重叠社区的发现方法,其特征在于,所述基于种子节点扩展重叠社区的发现方法具体包括以下步骤:步骤一,边缘须图过滤;输入:原图G=(V,E);输出:核心网络G′=(V′,E′);步骤二,种子集选取;输入:核心网络G′=(V′,E′),预期重叠社区数k;输出:种子集S;步骤三,种子扩展;输入:核心网络G′=(V′,E′),种子集S,参数α,ε(0<α<1,ε→0);输出:核心重叠社区;步骤四,核心社区传播;输入:原图G=(V,E),核心网络G′=(V′,E′),核心社区Ci(i=1,2,......,k);输出:重叠社区。3.如权利要求2所述的基于种子节点扩展重叠社区的发现方法,其特征在于,所述步骤一具体包括:(1)桥组件发现,初始化桥组件集合对图G所有的边ei(i=1,2,......)进行遍历,如果删除ei后产生两个子图,将ei加入Q,对所有的桥组件进行标记;(2)边缘须图过滤,通过移除桥组件获取边缘须图结构,节点数量设置固定值为10;遍历桥组件集合,检测桥组件两端结构节点个数,如果一端节点数量少于10个,则删除结构,如果节点数量大于10个,则桥组件标记清除。4.如权利要求2所述的基于种子节点扩展重叠社区的发现方法,其特征在于,所述步骤二具体包括:(1)初始化种子集(2)使用Graclus算法对核心网络G′=(V′,E′)进行划分;通过Graclus算法本发明可以得到k个互不相交的集合Gi(i=0,1......,k);(3)...

【专利技术属性】
技术研发人员:裴庆祺张皓旭
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1