一种融合节点属性的深度社团发现方法技术

技术编号:30092460 阅读:19 留言:0更新日期:2021-09-18 08:54
一种融合节点属性的深度社团发现方法,涉及作图分割问题的技术领域。构建模块度矩阵:模块度的值越大代表社团结构越清晰,社团的划分越好,通过最大化模块度可以得到网络的社团结构;构建深度自编码器捕捉网络结构:通过重构模块度矩阵,在隐层的最后一层输出H中保存网络的非线性社团结构;结合节点属性信息;当拥有相同属性的节点划分到不同社团,将执行一个惩罚,同时利用融合链接关系数据和节点内容数据进行社团发现。本发明专利技术利用深度神经网络挖掘非线性结构,同时结合节点属性信息得到更准确的社团结构。确的社团结构。确的社团结构。

【技术实现步骤摘要】
一种融合节点属性的深度社团发现方法


[0001]本专利技术涉及作图分割问题的
,尤其是一种融合节点属性的深度社团发现方法。

技术介绍

[0002]社团结构是广泛存在于网络中的重要结构特征,在社团内部的节点之间连接紧密,社团之间的节点连接稀疏。社团发现是通过对网络中节点之间的相互作用和潜在的信息进行分析,从介观角度挖掘网络数据中隐藏的社团结构的过程。社团发现为探索复杂网络的潜在特征提供了有效工具,对理解网络组织结构、分析网络潜在特性、发现网络隐藏规律和交互模式等具有重要的理论和现实意义。节点属性作为网络中重要的信息,结合网络属性有助于挖掘更准确的社团结构。
[0003]虽然已经提出了许多社区检测方法并取得了合理的结果,但我们仍然面临着以下三大挑战:第一,随机模型和模块化最大化模型都是线性模型,只能捕捉网络的线性结构。然而,已经证明现实世界中的网络结构是复杂的,最好将其视为高度非线性。其次,众所周知,计算特征值需要很高的计算空间。因此,可扩展性是一个主要的瓶颈。第三,如何有效地整合不同类型的信息来检测社区还有待解决。大多数算法只利用了拓扑信息,而忽略了重要的属性信息。日常生活中的网络在每个节点中都有丰富的属性信息,这些属性可以用来提高社区检测的效率。属性信息的加入可以补充拓扑信息,缓解网络稀疏问题。

技术实现思路

[0004]本专利技术的目的是提出一种融合节点属性的深度社团发现方法,利用深度神经网络挖掘非线性结构,同时结合节点属性信息得到更准确的社团结构。
[0005]一种融合节点属性的深度社团发现方法,包括如下步骤:
[0006]第一步:构建模块度矩阵:模块度的值越大代表社团结构越清晰,社团的划分越好,通过最大化模块度可以得到网络的社团结构;
[0007]第二步:构建深度自编码器捕捉网络结构:通过重构模块度矩阵,在隐层的最后一层输出H中保存网络的非线性社团结构;
[0008]第三步:结合节点属性信息;当拥有相同属性的节点划分到不同社团,将执行一个惩罚,同时利用融合链接关系数据和节点内容数据进行社团发现。
[0009]优选的是,本专利技术构建模块度矩阵的具体过程为:
[0010]模块度被定义为社团内连接边的比例减去在同样社团结构下任意两个节点之间连接边的比例的期望值:
[0011][0012]其中,是网络中边的总数量,代表如果网络中的边是随机放置时节点v
i
和v
j
之间的期望边数,w
i
(w
j
)代表节点v
i
(v
j
)的度,δ(c
i
,c
j
) 为克罗内克函数;引入模块矩阵B∈R
n
×
n
,n为网络中节点的个数,R为实数集,模块度矩阵的元素模块度写为:
[0013]Q=tr(H
T
BH) s.t.tr(H
T
H)=n
ꢀꢀ
(6)
[0014]矩阵H为社团指示矩阵,矩阵每行最大值所对应的社团就是节点所属的社团,h
ij
代表节点i隶属于社团j的概率,H
T
为矩阵H的转置矩阵。
[0015]优选的是,本专利技术构建深度自编码器捕捉网络结构的具体过程为:
[0016]动编码器的目标是最小化输出数据和输入数据之间的重建误差,以便最后的隐藏层可以最大程度地保留原始输入数据的特征。本专利技术将模块度矩阵作为深度自编码器的输入,通过重构捕获模块度矩阵中的非线性结构:
[0017][0018]其中,θ={W
(1)
,W
(2)
,b
(1)
,b
(2)
}为超参数集合;B为模块度矩阵,矩阵元素通过重构模块度矩阵,在隐层的最后一层输出H中保存网络的非线性社团结构。
[0019]优选的是,本专利技术结合节点属性信息的具体过程为:
[0020]假设两个节点v
i
和v
j
在内容属性方面具有高度相似性s
ij
,那么它们有很大的概率属于同一个社团,两个节点v
i
和v
j
的社团指示矩阵向量也应该相似;
[0021]构造属性相似矩阵S,节点v
i
和v
j
之间属性的相似性用s
ij
表示,其中,我们利用余弦相似度来计算两个节点之间的属性相似度:
[0022][0023]其中,t
i
为节点属性矩阵的第i行,代表节点v
i
的属性特征向量;
[0024]对于每个节点v
i
,基于属性相似性,搜索和节点v
i
拥有最相近属性相似度的k个节点;如果节点v
i
是节点v
j
的k

近邻,那么节点v
j
也应该是节点v
i
的k

近邻,所有属性近邻图是对称的;在相似度矩阵中保留节点v
i
与它k

近邻之间的相似度值s
ij
,其他非近邻对应的元素设为0;
[0025]在得到属性相似度矩阵S后,在自动编码器中引入一个图正则项来融合属性信息;假设如果节点v
i
和v
j
具有高属性相似性s
ij
,那么它们的嵌入向量h
i
和h
j
也应该是相似的:
[0026][0027]其中,拉普拉斯矩阵L=D

S,D为对角矩阵;将图形正则化项并入重建损失函数,得到SADA最终的损失函数:
[0028][0029]其中α为控制正则化项权重的参数。通过优化得到矩阵H,H每一行最大值对应的社团即为节点属于的社团,从而获得最终的社团结构。
[0030]在过去的几十年里,已经提出了许多社团发现算法。其中,随机模型和基于模块度模型尤为流行。随机模型的本质是将网络映射到低维空间,然后检测潜在空间中的社团结构。基于模块度模型通过对模块度矩阵的特征值分解获得结构特征表示,然后在特征值对应的特征向量上应用K

均值聚类算法得到社团结构,这相当于模块度矩阵的低秩重构。尽管随机模型和基于模块度模型的工作机制不同,但它们本质上是将网络映射到一个低维空间,然后在新空间中聚类节点得到社团结构。自动编码器作为无监督的深度神经网络模型,目标是最小化输出数据和输入数据之间的重构误差,在隐藏层的最后一层输出可以最大限度地保留原始数据的特征。自动编码器和基于模块度模型都旨在获得相应矩阵的低维近似。然而,自动编码器可以捕捉节点之间的非线性关系,并且具有较小的复杂性。为了充分利用自动编码器的优势,本专利技术旨在基于深度自编码器提出一种社团发现方法,同时实现结构和节点属性信息的融合。利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合节点属性的深度社团发现方法,其特征在于包括如下步骤:第一步:构建模块度矩阵:模块度的值越大代表社团结构越清晰,社团的划分越好,通过最大化模块度可以得到网络的社团结构;第二步:构建深度自编码器捕捉网络结构:通过重构模块度矩阵,在隐层的最后一层输出H中保存网络的非线性社团结构;第三步:结合节点属性信息;当拥有相同属性的节点划分到不同社团,将执行一个惩罚,同时利用融合链接关系数据和节点内容数据进行社团发现。2.根据权利要求1所述的融合节点属性的深度社团发现方法,其特征在于上述构建模块度矩阵的具体过程为:模块度被定义为社团内连接边的比例减去在同样社团结构下任意两个节点之间连接边的比例的期望值:其中,是网络中边的总数量,代表如果网络中的边是随机放置时节点v
i
和v
j
之间的期望边数,w
i
(w
j
)代表节点v
i
(v
j
)的度,δ(c
i
,c
j
)为克罗内克函数;引入模块矩阵B∈R
n
×
n
,n为网络中节点的个数,R为实数集,模块度矩阵的元素模块度写为:Q=tr(H
T
BH) s.t.tr(H
T
H)=n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)矩阵H为社团指示矩阵,矩阵每行最大值所对应的社团就是节点所属的社团,h
ij
代表节点i隶属于社团j的概率,H
T
为矩阵H的转置矩阵。3.根据权利要求2所述的融合节点属性的深度社团发现方法,其特征在于上述构建深度自编码器捕捉网络结构的具体过程为:动编码器的目标是最小化输出数据和输入数据之间的重建误差,以便最后的隐藏层可以最大程度地保留原始输入数据的特征。本发明将模块度矩阵作为深度自编码器的输入,通过重构捕获模块度矩阵中的非线性结构:其中,θ={W
(1)
,W
(2)
,b
(1)
,b
(2)
}为超参数集合;...

【专利技术属性】
技术研发人员:潘志松潘雨胡谷雨张磊段晔鑫张武胡亚豪丁钰
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1