当前位置: 首页 > 专利查询>南通大学专利>正文

一种统一化融合内容信息的半监督社团检测方法技术

技术编号:33450359 阅读:31 留言:0更新日期:2022-05-19 00:34
本发明专利技术属于复杂网络分析技术领域,具体涉及一种统一化融合内容信息的半监督社团检测方法。本发明专利技术的步骤为:形式化带有节点内容网络中的拓扑和内容信息;利用基于非负矩阵分解的生成框架实现基于标准NMF和SNMF的拓扑子模型,计算结构相似度构建must

【技术实现步骤摘要】
一种统一化融合内容信息的半监督社团检测方法


[0001]本专利技术属于复杂网络分析
,具体涉及一种统一化融合内容信息的半监督社团检测方法。

技术介绍

[0002]现实世界存在着大量的社交网络等网络化数据,可这些数据转化为复杂网络,分析复杂网络具有重要研究意义和广泛应用价值。挖掘网络中的由链接密切的节点所组成的社团是复杂网络分析领域的热门研究之一。研究发现,复杂网络同时蕴含网络拓扑和节点内容,节点内容有助于减缓拓扑中噪音以及链接缺失的影响,提高社团检测的准确率。同时,网络拓扑中存在不同的复杂结构,这些结构影响拓扑对社团结构表征能力。为了解决上述两个问题,如何有效地提高融合拓扑、先验信息与内容信息进行社团检测,以及半监督社团检测相关研究理论,亟需一种统一化融合网络拓扑、先验信息和节点内容信息的半监督社团检测新方法。

技术实现思路

[0003]本专利技术提供了一种统一化融合内容信息的半监督社团检测方法,主要是基于以下两个出发点:其一,拓扑信息所蕴含的must

link先验信息能够对网络拓扑起到增强效果,实现模型鲁棒性和性能的提升;其二,模型融入节点内容信息能够减缓由拓扑信息所存在噪音或链接缺失引发的负面影响,对拓扑信息起到一定的补充作用,从而增强模型的性能。本专利技术利用节点的拓扑信息计算节点的结构相似度以实现must

link先验信息的构建;利用基于非负矩阵分解的生成框架构建拓扑子模型和内容子模型;将拓扑信息、内容信息以及拓扑的先验信息进行统一化融合,实现模型鲁棒性和社团检测精度的提升。
[0004]本专利技术所采用的技术方案是:
[0005]一种统一化融合内容信息的半监督社团检测方法,包括以下步骤:
[0006]S1、带有节点内容信息的网络可描述为G=(V,E,F),其中V={v1,v2,

,v
n
}表示网络中节点的集合,E={e1,e2,

,e
m
}表示网络中链接的集合,F={f1,f2,

,f
l
}表示网络中节点内容的集合;
[0007]S2、对网络G的拓扑信息和内容信息进行形式化;
[0008]S3、利用拓扑信息基于标准NMF和SNMF构建拓扑子模型,运用网络中节点拓扑信息构造must

link的先验信息,对节点社团隶属度调节以构建融合先验信息拓扑子模型,使用节点内容信息基于NMF构建内容子模型;
[0009]S4、运用生成框架将步骤S3中融合先验信息的拓扑子模型和内容子模型融合为一个统一化半监督社团检测模型,将该模型行于真实网络数据,并使用标准化互信息熵NMI和调整兰德系数ARI对同一框架下不同模型的性能进行量化评估。
[0010]作为本专利技术的优选技术方案:所述步骤S2具体过程如下:
[0011]S2.1、形式化拓扑信息的具体操作如下:使用邻接矩阵A={a
ij
}∈R
n
×
n
来表示网络
拓扑信息,若节点v
i
和v
j
之间存在链接则a
ij
=1,否则a
ij
=0;
[0012]S2.2、形式化内容信息的具体操作如下:使用内容矩阵B={b
ij
}∈R
n
×
l
来表示节点内容信息,若节点v
i
含有第j个内容则b
ij
=1,否则b
ij
=0。
[0013]作为本专利技术的优选技术方案:所述步骤S3具体过程如下:
[0014]S3.1、构建融合先验信息拓扑子模型:
[0015](一)首先,使用矩阵X∈R
n
×
k
描述节点社团隶属度分布,则整个网络k个社团中v
i
和v
j
之间的链接期望数表示为:
[0016][0017]其中,x
ij
表示节点v
i
属于第j个社团的倾向,网络中节点之间的链接取决于这两个节点属于同一个社团的概率,x
it
x
jt
表示社团t中节点v
i
和v
j
之间生成的链接数量;以此构建期望邻接矩阵即以拟合邻接矩阵A;
[0018]因此,拓扑子模型的损失函数为:
[0019][0020]基于非负矩阵分解的数据降维思想可将原数据映射到低维空间中来捕捉拓扑信息中蕴含的社团结构信息,从而构建基于标准NMF的拓扑子模型,其损失函数为:
[0021][0022]其中,W∈R
n
×
k
称为基矩阵,X称为表征矩阵;
[0023](二)然后,利用节点拓扑结构相似性构造must

link先验信息,利用节点所处的邻域来对节点的拓扑结构进行描述,则节点v
i
和v
j
基于拓扑的结构相似度定义为:
[0024][0025]其中,邻域D(i)={v
j
∈V|(v
i
,v
j
)∈E}∪{v
i
}用以表示节点v
i
的拓扑结构;
[0026]利用公式(4)可计算网络中任意两个节点之间的结构相似度,并构建相似度矩阵S={s
ij
}∈R
n
×
n
,基于以下思想构建先验信息:若网络中两个节点之间存在链接且结构相似度很高,那么这两个节点之间存在must

link关系,则将它们划入同一个社团中,因此约束矩阵Ω={ω
ij
}∈R
n
×
n
可定义为:
[0027][0028]其中,ε为调节must

link数量的邻域超参数;计算约束矩阵Ω中的连通分量P={p1,p2,

,p
q
},则每个连通分量中的节点之间都满足must

link关系,即同一个连通分量的节点应被划入同一个社团;那么节点社团隶属度矩阵X表示为:
[0029]X=CY
ꢀꢀꢀ
(6)
[0030]其中,C∈R
n
×
q
为指示矩阵,记录每个节点所属的连通分量以表示先验信息;Y∈R
q
×
k
为引入的一个非负的辅助矩阵;
[0031]由公式(6)可知,若节点v
i
和v
j
之间存在must

link,则c
i.
=c
j.
,从而x
i.
=c
i.
Y=c
j.
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种统一化融合内容信息的半监督社团检测方法,其特征在于,包括以下步骤:S1、带有节点内容信息的网络可描述为G=(V,E,F),其中V={v1,v2,

,v
n
}表示网络中节点的集合,E={e1,e2,

,e
m
}表示网络中链接的集合,F={f1,f2,

,f
l
}表示网络中节点内容的集合;S2、对网络G的拓扑信息和内容信息进行形式化;S3、利用拓扑信息基于标准NMF和SNMF构建拓扑子模型,运用网络中节点拓扑信息构造must

link的先验信息,对节点社团隶属度调节以构建融合先验信息拓扑子模型,使用节点内容信息基于NMF构建内容子模型;S4、运用生成框架将步骤S3中融合先验信息的拓扑子模型和内容子模型融合为一个统一化半监督社团检测模型,将该模型行于真实网络数据,并使用标准化互信息熵NMI和调整兰德系数ARI对同一框架下不同模型的性能进行量化评估。2.根据权利要求1所述的统一化融合内容信息的半监督社团检测方法,其特征在于,所述步骤S2具体过程如下:S2.1、形式化拓扑信息的具体操作如下:使用邻接矩阵A={a
ij
}∈R
n
×
n
来表示网络拓扑信息,若节点v
i
和v
j
之间存在链接则a
ij
=1,否则a
ij
=0;S2.2、形式化内容信息的具体操作如下:使用内容矩阵B={b
ij
}∈R
n
×
l
来表示节点内容信息,若节点v
i
含有第j个内容则b
ij
=1,否则b
ij
=0。3.根据权利要求2所述的统一化融合内容信息的半监督社团检测方法,其特征在于,所述步骤S3具体过程如下:S3.1、构建融合先验信息拓扑子模型:(一)首先,使用矩阵X∈R
n
×
k
描述节点社团隶属度分布,则整个网络k个社团中v
i
和v
j
之间的链接期望数表示为:其中,x
ij
表示节点v
i
属于第j个社团的倾向,网络中节点之间的链接取决于这两个节点属于同一个社团的概率,x
it
x
jt
表示社团t中节点v
i
和v
j
之间生成的链接数量;以此构建期望邻接矩阵即以拟合邻接矩阵A;因此,拓扑子模型的损失函数为:基于非负矩阵分解的数据降维思想可将原数据映射到低维空间中来捕捉拓扑信息中蕴含的社团结构信息,从而构建基于标准NMF的拓扑子模型,其损失函数为:其中,W∈R
n
×
k
称为基矩阵,X称为表征矩阵;(二)然后,利用节点拓扑结构相似性构造must

link先验信息,利用节点所处的邻域来对节点的拓扑结构进行描述,则节点v
i
和v
j
基于拓扑的结构相似度定义为:
其中,邻域D(i)={v
j
∈V|(v
i

【专利技术属性】
技术研发人员:许伟忠曹金鑫张晓峰丁卫平鞠小林鞠恒荣黄嘉爽程纯
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1