一种基于节点连接偏好的重叠社区发现方法及系统技术方案

技术编号:15504109 阅读:197 留言:0更新日期:2017-06-04 00:14
本发明专利技术适用于复杂网络领域,提供了一种基于节点连接偏好的重叠社区发现方法及系统,所述方法包括:根据节点的连接偏好构建目标函数;对节点-社区强度矩阵进行机器学习;对所述节点-社区强度矩阵进行筛选,得到包含重叠社区内所有节点的重叠社区集合。本发明专利技术根据节点的连接偏好构建目标函数,并在所构建的目标函数的基础之上的到重叠社区集合,使得最终的重叠社区发现的结果更加精确,且更具有实用价值。该方法可以广泛适用于大型的复杂网络中的重叠社区发现,具有极高的普适性,使得复杂网络数据中的重叠社区发现更为简单易行,降低了数据处理难度。

Overlapping community discovery method and system based on node connection preference

The invention is applicable to the field of complex networks, and provides a method and a system of overlapping communities found connections based on the preference, the method comprises the following steps: according to the objective function constructed connection node to node preference; community strength matrix machine learning; node on the strength of community matrix were obtained including overlapping communities all nodes overlap within the community set. According to the objective function constructed connection preference nodes, and set on the basis of the objective function of the community to overlap, the overlapping community eventually discovered the results more precise, and has more practical value. The method of overlapping communities can be widely applied to large complex networks in that universality is high, the overlapping community in complex network data that is more simple, reducing the difficulty of data processing.

【技术实现步骤摘要】
一种基于节点连接偏好的重叠社区发现方法及系统
本专利技术属于复杂网络领域,尤其涉及一种基于节点连接偏好的重叠社区发现方法及系统。
技术介绍
在复杂网络领域,通常会通过基于图聚类算法的网络社区发现模型来发现网络社区。然而,图聚类算法由于算法本身限制每个节点属于且仅能属于一个社区,并不能检测到可重叠的网络社区。近几年提出的新方法虽然突破了图聚类的框架,但是,它们仅仅关注连接本身而忽略了连接中所隐藏的偏好信息,并且它们采用简单的值逼近作为目标函数,在物理意义上得不到很好的解释。
技术实现思路
本专利技术实施例的目的在于提供一种基于节点连接偏好的重叠社区发现方法及系统,旨在解决现有的网络社区发现模型,仅仅关注连接本身而忽略了连接中所隐藏的偏好信息,并且采用简单的值逼近作为目标函数,在物理意义上得不到很好的解释的问题。本专利技术是这样实现的,一种基于节点连接偏好的重叠社区发现方法,所述方法包括:根据节点的连接偏好构建目标函数;对节点-社区强度矩阵进行机器学习;对所述节点-社区强度矩阵进行筛选,得到包含每个社区内所有节点的重叠社区集合。优选的,所述根据节点的连接偏好构建目标函数,具体包括:定义N+(i)为目标节点i的相邻节点的集合、N-(i)=V-N+(i)-{i}为目标节点i的非相邻节点的集合,其中,{i}为目标节点i的集合;定义训练集S={(i,j,k)|j∈N+(i),k∈N-(i)};定义给定节点-社区强度矩阵下,目标节点i生成特定的对于所有其他节点的偏好顺序的概率为p(>i|F);假设目标节点i对其相邻节点j的偏好大于对其非相邻节点k的偏好;根据上述假设,得到所述目标函数的表达式为:优选的,所述根据节点的连接偏好构建目标函数,具体还包括:定义目标节点i对其相邻节点j的偏好大于对其非相邻节点k的偏好的概率为:其中,函数为Logistics函数,Fi为节点-社区强度矩阵的第i行;定义用于避免所述目标函数过适的正则化项的表达式为:||F||F其中,||·||F为弗罗贝尼乌斯范数(Frobeniusnorm);根据所述目标函数的表达式和所述正则化项的表达式,得到避免过适的所述目标函数的表达式为:其中,λ为正则项系数。优选的,所述根据节点的连接偏好构建目标函数,具体还包括:将所述简化表达为将所述简化表达为得到简化后的所述目标函数表达式为:优选的,所述对节点-社区强度矩阵进行机器学习,具体包括:读取复杂网络数据,构建邻接矩阵;建立并随机初始化所述节点-社区强度矩阵,计算初始损失函数;根据所述节点-社区强度矩阵,利用随机并行梯度下降算法对所述目标函数进行求导,根据求导结果,更新所述节点-社区强度矩阵;计算当前损失函数并返回上一步,直到所述当前损失函数收敛或达到最大循环次数时止。优选的,所述对所述节点-社区强度矩阵进行筛选,得到包含每个社区内所有节点的重叠社区集合,具体包括:根据节点的连接偏好设置阈值;根据所述阈值,对更新后的所述节点-社区强度矩阵进行筛选,得到节点-社区从属矩阵;将所述节点-社区从属矩阵转化成集合形式,得到包含每个社区内所有目标节点的重叠社区集合。优选的,所述系统包括:目标函数构建模块,用于根据节点的连接偏好构建目标函数;机器学习模块,用于对节点-社区强度矩阵进行机器学习;重叠社区筛选模块,用于对所述节点-社区强度矩阵进行筛选,得到包含每个社区内所有节点的重叠社区集合。优选的,所述机器学习模块,具体包括:数据读取单元,用于读取复杂网络数据,构建邻接矩阵;第一计算单元,用于建立并随机初始化所述节点-社区强度矩阵,计算初始损失函数;求导更新单元,用于根据所述节点-社区强度矩阵,利用随机并行梯度下降算法对所述目标函数进行求导,根据求导结果,更新所述节点-社区强度矩阵;第二计算单元,用于计算当前损失函数并返回上一步,直到所述当前损失函数收敛或达到最大循环次数时止。优选的,所述重叠社区筛选模块,具体包括:阈值设置单元,用于根据节点的连接偏好设置阈值;重叠社区筛选单元,用于根据所述阈值,对更新后的所述节点-社区强度矩阵进行筛选,得到节点-社区从属矩阵;数据形式转换单元,用于将所述节点-社区从属矩阵转化成集合形式,得到包含每个社区内所有目标节点的重叠社区集合。本专利技术与现有技术相比,其有益效果在于:根据节点的连接偏好构建目标函数,并在所构建的目标函数的基础之上的到重叠社区集合,使得最终的重叠社区发现的结果更加精确,且更具有实用价值;本专利技术所提供的基于节点连接偏好的重叠社区发现方法可以广泛适用于大型的复杂网络中的重叠社区发现,具有极高的普适性,使得复杂网络数据中的重叠社区发现更为简单易行,降低了数据处理难度;既解决了传统基于图聚类算法无法发现可重叠社区的问题,又改进近些年提出的新模型中对于节点连接偏好信息的忽视和目标函数物理解释的缺失。附图说明图1是本专利技术实施例提供的基于节点连接偏好的重叠社区发现方法的基本流程框图;图2是本专利技术实施例提供的基于节点连接偏好的重叠社区发现系统的基本结构框图;图3是本专利技术另一实施例提供的基于节点连接偏好的重叠社区发现方法的基本流程框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。社区发现模型一般基于图聚类算法,这些模型的缺点是每个节点属于且仅属于一个社区,但是在实际的应用过程中,网络中的数据量是非常庞大的,一个节点往往会同时属于多个社区。因此,对可重叠社区的发型模型和方法的研究和改进是非常重要的。可重叠社区发现模型和算法主要包括以下几类:1)CPM(CliquePercolationMethod,团过滤算法):该算法是一种基于社区内部的节点联系更紧密的性质,利用分治的思想从微观到宏观解决重叠社区发现的一种方法。该方法需要首先在网络中需找所有K-团(K-clique),然后合并重叠度等于K-1的K团,最终形成可重叠社区;2)LC(LinkClustering,边聚类算法):该方法与传统的基于图聚类的社区发现模型相似,但是以边聚类替换了原来的点聚类。通过边聚类,将每条边所连接的两个点纳入该边所属的社区。由于一个点存在好几条以它为顶点的边,只要这些边分属不同的社区,该点就同时属于多个社区。3)BNMF(BaysianNonnegtiveMatrixFactorization,贝叶斯非负矩阵分解):该方法是一种基于贝叶斯概率生成的非负矩阵分解模型,通过给每个社区设定一个先验,然后以最大似然估计(MaximumLikelihoodEstimation)去生成已知的网络;4)BigCLAM(ClusterAffiliationModelforBigNetworks,大网络集群的隶属关系模型):该模型是一种可扩展的模型,它将图生成问题转化成为了连续优化问题,并利用非负矩阵分解模型去解决。上述几类社区发现模型和算法可以解决重叠社区的发现问题,但是存在以下缺陷:1)忽略了节点的连接偏好作用,现有的社区发现模型和算法仅仅只关注连接本身而忽略了连接中的隐含信息,事实上,连接关系还可以表现出两个节点之间的连接偏好关系;2)以非负矩阵分解为框架本文档来自技高网...
一种基于节点连接偏好的重叠社区发现方法及系统

【技术保护点】
一种基于节点连接偏好的重叠社区发现方法,其特征在于,所述方法包括:根据节点的连接偏好构建目标函数;对节点‑社区强度矩阵进行机器学习;对所述节点‑社区强度矩阵进行筛选,得到包含重叠社区内所有节点的重叠社区集合。

【技术特征摘要】
1.一种基于节点连接偏好的重叠社区发现方法,其特征在于,所述方法包括:根据节点的连接偏好构建目标函数;对节点-社区强度矩阵进行机器学习;对所述节点-社区强度矩阵进行筛选,得到包含重叠社区内所有节点的重叠社区集合。2.如权利要求1所述的基于节点连接偏好的重叠社区发现方法,其特征在于,所述根据节点的连接偏好构建目标函数,具体包括:定义N+(i)为目标节点i的相邻节点的集合、N-(i)=v-N+(i)-{i}为目标节点i的非相邻节点的集合,其中,{i}为目标节点i的集合;定义训练集s={(i,j,k)|j∈N+(i),k∈N-(i)};定义给定节点-社区强度矩阵下,目标节点i生成特定的对于所有其他节点的偏好顺序的概率为p(>i|F);假设目标节点i对其相邻节点j的偏好大于对其非相邻节点k的偏好;根据上述假设,得到所述目标函数的表达式为:3.如权利要求2所述的基于节点连接偏好的重叠社区发现方法,其特征在于,所述根据节点的连接偏好构建目标函数,具体还包括:定义目标节点i对其相邻节点j的偏好大于对其非相邻节点k的偏好的概率为:其中,函数为Logistics函数,Fi为节点-社区强度矩阵的第i行;定义用于避免所述目标函数过适的正则化项的表达式为:||F||F其中,||·||F为弗罗贝尼乌斯范数(Frobeniusnorm);根据所述目标函数的表达式和所述正则化项的表达式,得到避免过适的所述目标函数的表达式为:其中,λ为正则项系数。4.如权利要求3所述的基于节点连接偏好的重叠社区发现方法,其特征在于,所述根据节点的连接偏好构建目标函数,具体还包括:将所述简化表达为将所述简化表达为得到简化后的所述目标函数表达式为:

【专利技术属性】
技术研发人员:张弘毅金国庆吕荣聪
申请(专利权)人:香港中文大学深圳研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1