一种数据聚类方法、装置及计算机可读存储介质制造方法及图纸

技术编号：39440524 阅读：8 留言：0更新日期：2023-11-19 16:23

本申请提供了一种数据聚类方法、装置、系统及计算机可读存储介质，该方法包括：获取各个结点的结点特征向量和结点关系网络；所述结点特征向量指示实体对象的属性特征，所述结点关系网络指示所述实体对象间的真实交互关系；在双曲空间中，根据所述结点关系网络和所述结点特征向量生成结点表示，并根据所述结点表示输出聚类结果。利用上述方法，能够在双曲空间中充分捕捉蕴藏的低阶和高阶拓扑结构信息，得到更优的聚类效果。到更优的聚类效果。到更优的聚类效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据聚类方法、装置及计算机可读存储介质

[0001]本申请属于数据分类领域，具体涉及一种数据聚类方法、装置及计算机可读存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着大数据时代的到来，海量数据涌现而来，如何对这些过载的数据进行分析并从中挖掘出有益的信息逐渐成为人们关注的课题。
[0004]在客群分析、欺诈团伙发现、异常数据检测等方面，聚类分析作为一项重要的数据挖掘技术，已取得了广泛应用。在实际情况中，样本并非独立存在的，而是存在着内在的互作关系，即可以构建起一张实体关系网络。经典的聚类算法要么将样本视作独立同分布而不考虑样本间的相似性，要么通过余弦函数、Gaussian径向基函数等方法隐式的构造样本亲和度矩阵，少有算法显式的对已知的实体关系网络中蕴含的拓扑结构信息加以利用，使紧密相连的样本聚集到同一簇内，从而帮助提升聚簇的内聚性。
[0005]真实世界中，实体关系网络多服从无尺度(scale
‑
free)分布。传统的欧氏空间由于其容量随着空间尺度仅为多项式级的扩张，对无尺度网络生成的嵌入表示往往具有较高的失真。相反，双曲空间的容量随空间尺度为指数级的增长，对于无尺度网络具备更好表征能力，生成的嵌入表示失真更小。但是，为数不多现有的基于实体关系网络的聚类算法都是在传统的欧氏空间中进行建模，显然生成的用于聚类的结点嵌入表示并不能很好的反映真实的位置关系，得到的聚...

【技术保护点】

【技术特征摘要】
1.一种数据聚类方法，其特征在于，包括：获取各个结点的结点特征向量和结点关系网络；所述结点特征向量指示实体对象的属性特征，所述结点关系网络指示所述实体对象间的真实交互关系；在双曲空间中，根据所述结点关系网络和所述结点特征向量生成结点表示，并根据所述结点表示输出聚类结果。2.根据权利要求1所述的方法，其特征在于，在双曲空间中，根据所述结点关系网络和所述结点特征向量生成结点表示，还包括：基于双曲自编码器学习各个结点的所述结点特征向量；基于双曲图卷积网络学习所述结点关系网络，并融合所述双曲自编码器习得的结点隐含表示，生成所述结点表示。3.根据权利要求1所述的方法，其特征在于，还包括：所述双曲空间为Poincar
é
球模型。4.根据权利要求2所述的方法，其特征在于，还包括：使用自监督学习机制对所述双曲自编码器和所述双曲图卷积网络进行联合优化训练。5.根据权利要求4所述的方法，其特征在于，使用自监督学习机制对所述双曲自编码器和所述双曲图卷积网络进行联合优化训练，包括：基于双曲自编码器输出的嵌入表示计算第一概率分布Q和目标分布P；根据双曲图卷积网络输出的隐含表示计算出第二概率分布Z；根据所述第一概率分布Q、所述目标分布P和所述第二概率分布Z确定所述双曲自编码器和所述双曲图卷积网络的总体优化目标函数；根据所述总体优化目标函数进行所述联合优化训练，以调整所述双曲自编码器和所述双曲图卷积网络的参数，直至收敛。6.根据权利要求4所述的方法，其特征在于，在所述联合优化训练后，还包括：获取收敛的所述双曲图卷积网络输出的隐含表示Z
H,(L)
；根据所述隐含表示Z
H,(L)
计算出更新的第二概率分布Z；根据所述更新的第二概率分布Z计算聚类结果。7.根据权利要求2所述的方法，其特征在于，还包括：基于注意力机制融合所述双曲自编码器和所述双曲图卷积网络关于各个结点的隐含表示。8.根据权利要求2所述的方法，其特征在于，基于双曲自编码器学习各个结点的所述结点特征向量之前，还包括：将对应于各个结点的所述结点特征向量输入所述双曲自编码器进行预训练，输出初步嵌入表示；基于所述初步嵌入表示，通过Poincar
é
球模型上的聚类算法生成聚簇标的。9.根据权利要求2所述的方法，其特征在于，还包括构建所述双曲自编码器的步骤，包括：构建L层编码层，作为所述双曲自编码器的编码器部分，L为正整数；将所述编码器部分镜像反转构建解码层，得到所述双曲自编码器的解码器部分。10.根据权利要求9所述的方法，其特征在于，所述双曲自编码器使用堆叠的双曲线性层构建所述编码层和所述解码层；
所述双曲线性层配置为执行双曲线性变换和双曲激活函数运算。11.根据权利要求8所述的方法，其特征在于，根据对应于各个结点的所述结点特征向量对所述双曲自编码器进行预训练，还包括：通过指数映射，将各个结点v
i
的结点特征向量从欧氏空间映射到双曲空间，其中，i＝1,2,
…
,m，m为正整数；使用所述双曲自编码器生成各个结点v
i
的初步嵌入表示12.根据权利要求11所述的方法，其特征在于，利用如下公式实现所述指数映射：所述是指结点v
i
的原始欧氏结点特征向量，K指曲率，字母E指代欧氏空间，字母H指代双曲空间，是指指数映射。13.根据权利要求11所述的方法，其特征在于，使用所述双曲自编码器生成各个结点v
i
的初步嵌入表示还包括：获取各个结点v
i
在双曲空间中的结点特征向量对双曲空间中的结点特征向量进行双曲线性变换，得到双曲线性变换结果对双曲线性变换结果进行双曲线性激活。14.根据权利要求13所述的方法，其特征在于，对双曲空间中的结点特征向量进行双曲线性变换，包括：其中，表示将双曲空间中的结点特征向量与权重参数矩阵W相乘得到的矩阵相乘结果，表示将所述矩阵相乘结果与偏置项b进行偏置加法。15.根据权利要求13所述的方法，其特征在于，对双曲线性变换结果进行双曲线性激活，还包括：利用对数映射对双曲线性变换结果投影到原点处的切空间上，然后利用欧氏激活函数进行欧氏激活；利用指数映射将欧氏激活结果投影回双曲空间。16.根据权利要求15所述的方法，其特征在于，利用以下公式实现双曲激活函数运算：其中，x
H
是输入的双曲空间特征向量，φ(
·
)是欧氏激活函数，是指指数映射，是指对数映射。
17.根据权利要求9所述的方法，其特征在于，所述编码器部分的第l层编码层定义为：其中，和分别为第l层编码层的权重矩阵和偏置向量，H
H,(0)
＝X
H
。18.根据权利要求9所述的方法，其特征在于，所述解码器部分的第l层解码层定义为：其中，权重矩阵和偏置向量的维数d
(l)
＝d
(2L
‑
l
‑
1)
，即与对应的编码层构成镜像。19.根据权利要求8所述的方法，其特征在于，还包括：通过第一优化目标函数对所述双曲自编码器进行预训练直至收敛，完成对所述双曲自编码器的预训练；将收敛后所述双曲自编码器的第L层编码层的输出H
H,(L)
作为所述自编码器输出的嵌入表示。20.根据权利要求19所述的方法，其特征在于，所述第一优化目标函数为：其中，将所述解码器部分最终输出的重建特征矩阵投影至欧氏空间，得到所述X
E
为输入的所述结点特征向量，m为结点个数。21.根据权利要求8所述的方法，其特征在于，基于所述初步嵌入表示，通过Poincar
é
球模型上的聚类算法生成聚簇标的，还包括：根据所述初步嵌入表示，获取各个结点v
i
在Poincar
é
球模型上的结点特征向量并确定簇个数C，其中i＝1,2,
…
,m；利用所述Poincar
é
球模型的K
‑
means++算法，挑选C个初始簇中心；利用所述Poincar
é
球模型的K
‑
means算法，基于所述C个初始簇中心和所述各个结点v
i
的结点特征向量更新各个簇的簇均值向量，直至收敛，输出C个聚簇标的22.根据权利要求21所述的方法，其特征在于，所述K
‑
means++算法和所述述K
‑
means算法中的距离计算方式采用所述Poincar
é
球模型上的距离计算方式；所述K
‑
means算法中的簇均值向量计算方式采用Fr
é
chet均值计算方式。23.根据权利要求2所述的方法，其特征在于，所述双曲图卷积网络包括堆叠的多个双曲图卷积层；其中，第l层双曲图卷积层执行以下动作：接收第l
‑
1层输出的隐含表示Z
H，(l
‑
1)
；使用双曲图注意力卷积对所述隐含表示Z
H，(l
‑
1)
在所述结点关系网络上进行消息传播，得到隐含表示Z
H，(l){GCN}
；
利用双曲激活函数对所述隐含表示Z
H，(l){GCN}
进行神经元激活，得到隐含表示Z
H，(l){ACT}
；利用双曲注意力融合机制，将所述隐含表示Z
H，(l){ACT}
与所述双曲自编码器的对应编码层输出的隐含表示H
H，(l)
相融合，得到整合后的隐含表示Z
H，(l){COM}
；对所述隐含表示Z
H，(l){COM}
进行双曲批规范化和双曲随机失活，得到所述第l层双曲图卷积层输出的隐含表示Z
H，(l)
。24.根据权利要求23所述的方法，其特征在于，使用双曲图注意力卷积对所述隐含表示Z
H，(l
‑
1)
在所述结点关系网络上进行消息传播，包括：利用权重矩阵和偏置向量对所述隐含表示Z
H，(l
‑
1)
中对应于各个结点v
i
的结点隐含表示进行特征变换，得到所述结点v
i
的结点隐含表示计算所述结点v
i
的结点隐含表示与所述结点v
i
的相邻结点v
j
的结点隐含表示之间注意力系数α
ij
；基于注意力系数α
ij
，在原点处的切空间内完成消息聚合，并将结果投影回双曲空间，得到各个结点v

【专利技术属性】
技术研发人员：刘砺志，佟志臣，蒋海俭，闵青，
申请(专利权)人：中国银联股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人