【技术实现步骤摘要】
一种深度图聚类方法、系统、设备、介质及终端
[0001]本专利技术涉及深度无监督图聚类
,特别涉及一种深度图聚类方法
、
系统
、
设备
、
介质及终端
。
技术介绍
[0002]深度图聚类根据训练过程是否为端到端,将深度图聚类分为单阶段
(
端到端
)
训练图聚类模型和两阶段训练图聚类模型;单阶段
(
端到端
)
训练聚类模型将网络参数和聚类结果联合训练,端到端的得到聚类结果;经典的端到端的深度图聚类算法有图池化谱聚类
(Spectral Clustering with Graph Neural Networks for Graph Pooling
,
MinCutPool)、
基于邻域感知的深度属性图嵌入聚类
(Deep Neighbor
‑
aware Embedding for Node Clustering in attributed graphs
,
DNENC)、
基于互信息最大化的图谱预训练模型
(Deep Graph Infomax
,
DGI)
等,
MinCutPool
利用最小分割的思想设计损失函数,直接利用模型端到端的得到类别分布,
DNENC
基于
KL(Kullback
‑
Leibler) >散度设计损失函数,联合训练网络参数和聚类结果,
DGI
通过设计损失函数,捕捉数据样本的局部信息特征,端到端的获得聚类标签;两阶段聚类模型首先根据深度图神经网络模块的损失函数训练网络参数,然后利用深度图神经网络得到具有代表性的特征表示,最后利用传统的聚类算法作用于特征表示上得到最终的聚类结果,代表性的两阶段深度图聚类模型有图自动编码器
(Graph Auto
‑
Encoder
,
GAE)、
深度线性快速图聚类
(Deep Linear Coding for Fast Graph Clustering
,
DLC)
等,
GAE
利用图自动编码器获取原始数据的特征表示,然后将传统聚类算法
K
‑
means
作用于特征表示得到最终的聚类标签;
DLC
利用核方法和线性变换得到原始数据的特征表示,然后通过
K
‑
means
算法得到最终的聚类结果
。
[0003]自动编码器通过最小化重构损失训练网络参数,重构损失最小化可以最大程度的保证提取样本特征的全面性,但该方法存在两个不足:第一,重构损失并不能最大程度的保证特征的可识别性,如猫狗分类问题,编码器提取猫和狗的特征,要想能够较好的重构猫和狗的大致形态,编码器提取到的特征就需要尽可能地全面,但这些特征并不一定都是能够识别猫和狗的最具识别性的特征;第二,自动编码器常用来无监督的提取样本特征,但并不能无监督的端到端对样本进行聚类
。
[0004]公开号
CN115905903A
的专利申请,公开了一种基于图注意力自动编码器的多视图聚类方法及系统,包括:从同一组节点的不同视图中选择信息量最大的视图;基于信息量最大的视图和节点内容信息,利用训练好的图注意力编码器,学习图结构和节点内容,得到节点特征表示;采用
l1,2
‑
范数惩罚对节点特征表示进行特异性约束,得到约束后的节点特征表示;将约束后的节点特征表示输入到自优化聚类模块中进行聚类,得到最终的聚类结果;但由于该网络基于信息量最大的视图和节点的内容信息训练神经网络,在提取特征的时候会过分重视一些小众特征,如对于存在大量小众词汇的文本数据集,导致特征表示的代表性降低,进而导致聚类效果变差
。
技术实现思路
[0005]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种深度图聚类方法
、
系统
、
设备
、
介质及终端,通过对原始图的重构构建重构损失进行网络预训练,构建信息损失,设计聚类损失,联合训练聚类损失
、
信息损失和重构损失对整个数据集进行特征提取,得出聚类结果,本专利技术具有特征信息挖掘充分,适用范围广,聚类效果好,样本信息识别度高以及特征表示可分性强的优点
。
[0006]为了实现上述目的,本专利技术采用的技术方案是:
[0007]一种深度图聚类方法,包括以下步骤:
[0008]步骤
1、
输入原始图,利用扰动函数对其进行处理,得到扰动图;
[0009]步骤
2、
将步骤1中输入的原始图和得到的扰动图输入到图卷积自动编码器中,得到原始图的图重构和扰动图的图重构;
[0010]步骤
3、
利用步骤1中的原始图以及步骤2中原始图的图重构,构建重构损失,对自动编码器网络进行预训练;
[0011]步骤
4、
待步骤3中的自动编码器网络预训练完成后,将重构原始图与原始图作为正样本对,将重构扰动样本与原始图作为负样本对,构建信息损失;
[0012]步骤
5、
构建聚类损失,并利用聚类损失
、
步骤4中构建的信息损失以及步骤3中构建的重构损失联合训练编码器网络参数,训练结束后对整个数据集进行特征提取,基于聚类软标签得出聚类结果
。
[0013]所述步骤1中,利用扰动函数对原始图进行处理,得到扰动图,具体为:
[0014]设输入的原始图为
G
=
(X,A)
,其中,
X
=
{x1,x2,
…
,x
N
}
表示节点集,
A∈R
N
×
N
表示邻接矩阵,利用扰动函数
f
s
(
·
)
将原始图
G
=
(X,A)
扰动,得到扰动样本具体如式
(1)
所示:
[0015][0016]式
(1)
中,扰动函数
f
s
(
·
)
表示随机去掉一些节点以及与该节点相连的边
。
[0017]所述步骤2中,将步骤1中输入的原始图和得到的扰动图输入到图卷积自动编码器中,得到原始图的图重构和扰动图的图重构,具体为:
[0018]利用图卷积网络
GCN
构造图自动编码器
GAE
,将原始数据
G
=
(X,A)
和扰动数据作为自动编码器
GAE...
【技术保护点】
【技术特征摘要】
1.
一种深度图聚类方法,其特征在于,包括以下步骤:步骤
1、
输入原始图,利用扰动函数对其进行处理,得到扰动图;步骤
2、
将步骤1中输入的原始图和得到的扰动图输入到图卷积自动编码器中,得到原始图的图重构和扰动图的图重构;步骤
3、
利用步骤1中的原始图以及步骤2中原始图的图重构,构建重构损失,对自动编码器网络进行预训练;步骤
4、
待步骤3中的自动编码器网络预训练完成后,将重构原始图与原始图作为正样本对,将重构扰动样本与原始图作为负样本对,构建信息损失;步骤
5、
构建聚类损失,并利用聚类损失
、
步骤4中构建的信息损失以及步骤3中构建的重构损失联合训练编码器网络参数,训练结束后对整个数据集进行特征提取,基于聚类软标签得出聚类结果
。2.
根据权利要求1所述的一种深度图聚类方法,其特征在于,所述步骤1中,利用扰动函数对原始图进行处理,得到扰动图,具体为:设输入的原始图为
G
=
(X,A)
,其中,
X
=
{x1,x2,
…
,x
N
}
表示节点集,
A∈R
N
×
N
表示邻接矩阵,利用扰动函数
f
s
(
·
)
将原始图
G
=
(X,A)
扰动,得到扰动样本具体如式
(1)
所示:式
(1)
中,扰动函数
f
s
(
·
)
表示随机去掉一些节点以及与该节点相连的边
。3.
根据权利要求1所述的一种深度图聚类方法,其特征在于,所述步骤2中,将步骤1中输入的原始图和得到的扰动图输入到图卷积自动编码器中,得到原始图的图重构和扰动图的图重构,具体为:利用图卷积网络
GCN
构造图自动编码器
GAE
,将原始数据
G
=
(X,A)
和扰动数据作为自动编码器
GAE
的输入,分别获得原始数据的特征表示
Z、
原始数据的重构
G
rec
=
(X
rec
,A
rec
)
和扰动数据的特征表示扰动数据的重构具体如式
(2)
所示:
4.
根据权利要求1所述的一种深度图聚类方法,其特征在于,所述步骤3中,利用步骤1中的原始图以及步骤2中原始图的图重构,构建重构损失,进行网络的预训练,具体为:利用步骤2中得出原始数据的特征表示
Z、
原始数据的重构
G
rec
=
(X
rec
,A
rec
)
和扰动数据的特征表示扰动数据的重构最小化邻接矩阵
A
的重构与原始邻接矩阵之间的
F
‑
范数以及原始数据
X
与重构数据
X
rec
之间的
F
‑
范数,如式
(3)
所示:
5.
根据权利要求1所述的一种深度图聚类方法,其特征在于,所述步骤4中,待步骤3中的网络预训练完成后,将重构原始图与原始图作为正样本对,将重构扰动样本与原始图作为负样本对,构建信息损失,具体为:待预训练结束后得到编码
Z
,将重构原始图与原始图作为正样本对,重构扰动样本与原始图作为负样本对,构建信息损失,如式
(4)
所示:式
(4)<...
【专利技术属性】
技术研发人员:王卫卫,姚博,冯象初,贾西西,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。