一种在线社会网络多尺度社区发现方法技术

技术编号:15518492 阅读:76 留言:0更新日期:2017-06-04 08:41
针对大尺度在线社会网络中社区挖掘的高计算复杂度以及社区定义涉及的多种要素,本发明专利技术提出了一种在线社会网络多尺度社区发现方法,该方法的一个重要特点是融合了用户兴趣和内聚度,该挖掘方法主要包括3个步骤:1)网络粗化过程,2)粗化网络上基于概率模型的社区标签初始化,3)基于图上半监督学习的社区标签的估计。该方法的优点在于通过粗化过程极大地降低了网络的大小,使得用于社区检测概率模型具有很小的参数空间,大大增大了寻找全局最优解的可能性并降低了计算复杂度;其次,结合了用户兴趣和内聚度能够全面地对社区进行定义,本发明专利技术的贡献在于提出了一种基于多层次的社区挖掘方法。

【技术实现步骤摘要】
一种在线社会网络多尺度社区发现方法
本专利技术属于计算机应用
,涉及数据挖掘、在线社会网络以及机器学习,特别涉及一种在线社会网络多尺度社区发现方法。
技术介绍
在线社交网络中蕴含着大量潜在的社区结构,这些社区内的节点具有相似的特性,在网络中扮演相似的角色,以其为单位的粗粒度网络描述,可简化对整个网络的功能、交互及其演化的研究。因此,识别社区结构有助于我们更深入地了解网络的本质,认识网络结构与其功能之间的关系。社区检测通常是指将网络结点和边划分至不同的集合。社区发现的关键是社区定义,不同社区结构的定义导致不同的社区发现方法。传统意义上,人们将社区定义为团内节点连接稠密、团间节点连接稀疏的结构。然而在实际网络中还存在这样的节点集,它们具有相似的链接模式,但它们之间是否存在稠密链接不确定,此类有相似链接模式的结构称为广义社区(兼容传统社区)。传统的社区发现方法,如谱平分法、分层聚类、Girvan–Newman(GN)算法、派系过滤等,采用启发式的度量衡量传统社区结构的优劣,缺乏严格的理论基础;同时,此类方法在处理具有重叠的社区问题上,也缺乏活力。近年来,出现了一些基于统计推理的社区发现方法。该类方法可识别网络中结构对等和规律对等的结构,利用生成模型拟合观测到的网络来获得节点的划分及网络的结构,具有完备的概率理论基础和解释,能更好地满足社区发现算法的标准。与此同时,基于统计推理的社区发现方法,能准确地处理具有重叠(overlap)的社区发现问题。Hastings等人采用的物理种植分区模型是一种特殊的统计块模型(SBM),将社区划分问题转化为统计推理问题;随后,Hoffman等人采用贝叶斯方法处理该模型。Newman和Leieht用混合概率模型发现网络的结构,不仅能识别传统意义的协调匹配社区,还能发现有相似链接模式的非协调匹配社区。基于Blei的著名LDA混合隶属度模型,Airoldi和Blei将混合隶属度模型和随机块模型结合,建立了混合隶属度随机块模型。Karrer和newman等人在随机块模型中融入节点度信息,得到了更好的社区结构,也证明了其比相似的模块社区发现算法有更可靠的解释、更优的结果。此外,Ball等基于链接社区的思想设计了一个融人边分布的随机块模型。虽然基于统计推理模型的方法能够准确地在有向或无向网络中发现重叠的传统社区,而且具有坚实的理论基础,但是,由于推理过程中不可避免的迭代过程,此类方法往往具有很高的复杂度。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种在线社会网络多尺度社区发现方法,针对大尺度的在线社会网络中社区挖掘的高计算复杂度以及社区定义涉及的多种要素,融合用户兴趣和内聚度,同时通过多层次、多尺度的方法减小了原始网络的大小。为了实现上述目的,本专利技术采用的技术方案是:1)基于连接密度与连接模式的大尺度网络的粗化。针对在线社会网络中同一社区的结点通常具有相似的兴趣和较频繁的交互行为,定义了结合连接密度和连接模式的相似度;定义了k-阶的结点合并策略,在算法效率和准确度方面进行了权衡;提出了贪婪的k-阶结点合并算法,将输入的大尺度网络通过逐层粗化的方式得到粗化网络其中L表示粗化的最大层数。2)粗化网络上的社区发现初始化。基于NMM算法对最上层的粗化网络进行社区发现初始化,得到粗略的社区发现结果QL。方法该技术环节带来的好处是:极大的减少了网络的大小,大大加快了NMM算法求解过程,提高了效率;明显降低了NMM算法中的参数空间大小,使得该算法在优化过程中更有可能收敛到全局最优解。3)考虑光滑性假设的社区发现。本技术环节将粗化网络上得到的社区发现初始结果QL通过逐层计算来得到大尺度输入网络上的社区检测结果Q0。主要包括两个步骤:第一,将上层网络中的社区发现结果Ql+1映射至下层网络第二,基于光滑性假设,构建优化函数,通过图上的学习方法推理出上的社区检测结果Ql。通过逐层推理,最终得到输入的大尺度网络上的社区检测结果Q0。与现有技术相比,本专利技术的有益效果是:通过粗化过程极大地降低了网络的大小,使得用于社区检测概率模型具有很小的参数空间,大大增大了寻找全局最优解的可能性并降低了计算复杂度;其次,结合了用户兴趣和内聚度能够全面地对社区进行定义。附图说明图1是本专利技术实施例中一个3层粗化的社区发现过程示意图。具体实施方式下面结合附图和实施例详细说明本专利技术的实施方式。步骤1:定义表示连接模式,反映结点vi与vj之间的连接规律。其中wij表示节点vi到vj的边的权值,表示节点vi的出度。则pi=(βi,j)n×1反映了结点vi与网络内所有结点的连接规律。基于连接模式的vi,vj之间的相似度定义如下:PairSimc(vi,vj)=sig(cos(∠(pi,pj)))(2)sig(·)表示sigmoid函数,将相似度映射至(0,1)范围内。进一步地,基于连接模式的结点v和结点集合U之间的相似度定义如下:基于连接密度的相似性度量:其中Simd(v,U)表示了结点v和结点集合U之间的相似度,表示两端结点均在内部的边的集合,表示只有一端结点在内部的边的集合。其中⊕是一个操作符号,可以由多种选择:取最大值,取几何平均值或者算术平均值。在网络粗化过程中,采用阶合并策略:在一次粗化过程中,对于中的每一个超节点由中不超过个节点结合而成,相当于一个上界;另一方面,本质上也是粗化速率和整体算法精度的一个权衡。具体粗化做法:给定网络按如下步骤进行。step1:随机选取没有合并过的结点v,以v为初始节点构建结点集合step2:从v的邻域结点中随机选择结点u,若Sim(u,U)>δ,δ为提前设定的阈值,则根据此做法不断扩充直到或者结点v的邻域集合被选择完毕,则终止的合并,将其用中的超结点代表;step3:重新跳至step1,或者所有结点均被合并完毕,则跳至下一步;step4:合并中的边及权重,形成中的边及权重,对于超结点和分别对应于结点集合和则其中,分别表示中节点到的边的权值以及中节点到的边的权值。步骤2:在最上层的粗化网络采用NMM算法进行社区检测,并作为步骤3的初始结果,具有如下优点:极大的减少了网络的大小,大大加快了NMM算法求解过程,提高了效率;明显降低了NMM算法中的参数空间大小,使得该算法在优化过程中更有可能收敛到全局最优解。在粗化网络上实现NMM算法的过程如下:给定其中和分别表示所有节点、边的集合,表示节点之间的连接矩阵。定义为社区g中节点数量所占的比例(或随机选取一个节点,隶属于社区g的概率);为社区g中任意节点有边连接到节点j的概率,且满足其中C为社团数目,n为结点数目。上的社区检测问题转化为如下最大似然问题:采用期望最大化算法进行推理,按照如下推理公式进行迭代计算,最终得到最终结果。其中,是结点的出度。表示结点的社区标签向量,表示网络上的社区检测结果,c是第c个社区,C是总社区数目,s是第s个社区。步骤3:当得到粗化网络上的社区发现初始化的结果之后,需要逐层估计网络上的社区检测结果。社区检测包括两步。首先,将网络上的社区检测结果映射至层。具体而言,如果中的一个超结点是由中的若干结点聚合而成,则的社区标签向量跟一致。其次,针对第一步得到的标签估计结果进行优化。本专利技术采用图上的学习方本文档来自技高网
...
一种在线社会网络多尺度社区发现方法

【技术保护点】
一种在线社会网络多尺度社区发现方法,其特征在于,包括如下步骤:1)基于连接密度与连接模式的大尺度网络的粗化基于贪婪的

【技术特征摘要】
1.一种在线社会网络多尺度社区发现方法,其特征在于,包括如下步骤:1)基于连接密度与连接模式的大尺度网络的粗化基于贪婪的-阶结点合并算法,将输入的大尺度网络通过逐层粗化的方式得到粗化网络其中L表示粗化的最大层数;2)粗化网络上的社区发现初始化基于NMM算法对最上层的粗化网络进行社区发现初始化,得到粗略的社区发现结果QL;3)考虑光滑性假设的社区发现将得到的社区发现初始结果QL通过逐层计算,得到大尺度输入网络上的社区检测结果Q0。2.根据权利要求1所述在线社会网络多尺度社区发现方法,其特征在于,所述步骤1)中,在网络粗化过程中,采用阶合并策略:在一次粗化过程中,对于中的每一个超节点由中不超过个节点结合而成,相当于一个上界;另一方面,本质上也是粗化速率和整体算法精度的一个权衡。3.根据权利要求2所述在线社会网络多尺度社区发现方法,其特征在于,所述步骤1)中,给定网络按如下步骤进行粗化:step1:随机选取没有合并过的结点v,以v为初始节点构建结点集合step2:从v的邻域结点中随机选择结点u,若Sim(u,U)>δ,δ为提前设定的阈值,则根据此做法不断扩充直到或者结点v的邻域集合被选择完毕,则终止的合并,将其用中的超结点代表;step3:重新跳至step1,或者所有结点均被合并完毕,则跳至下一步;step4:合并中的边及权重,形成中的边及权重,对于超结点和分别对应于结点集合和则其中,分别表示中节点到的边的权值以及中节点到的边的权值;Sim(u,U)定义为结合连接密度和连接模式的相似度:其中,表示基于连接模式的结点v和结点集合U之间的相似度;表示基于连接密度的结点v和结点集合U之间的相似度;⊕是操作符号,表示取最大值、取几何平均值或者取算术平均值;进一步地:PairSimc(v,u)表示基于连接模式的结点v和结点u之间的相似度,参照公式PairSimc(vi,vj)=sig(cos(∠(pi,pj)))进行计算,sig(·)表示sigmoid函数,将相似度映射至(0,1)范围内,令n表示网络中的节点总量,pi=(βi,j)n×1,反映了结点vi与网络内所有结点的连接规律,表示连接模式,反映结点vi与结点vj之间的连接规律,其中wij表示节点vi到vj的边的权值,表示节点vi的出度;表示两端结点均在内部的边的集合,表示只有一端结点在内部的边的集合,4.根据权利要求1所述在线社会网络多尺度社区发现方法,其特征在于,所述步骤2)中,基于NMM算法对最上层的粗化网...

【专利技术属性】
技术研发人员:杜友田苏畅管晓宏王倩
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1