数据聚类方法技术

技术编号:39840947 阅读:5 留言:0更新日期:2023-12-29 16:28
本申请实施例公开了一种数据聚类方法

【技术实现步骤摘要】
数据聚类方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,特别是涉及一种数据聚类方法

装置

电子设备及存储介质


技术介绍

[0002]聚类即是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,随着互联网技术的快速发展,聚类在互联网中的应用变得越来越广泛

当前,传统聚类算法往往基于数据之间的欧氏距离或曼哈顿距离进行类间划分,不能直接运用到多维时序数据聚类任务中,因为当待聚类数据的数据维度大小增加时,往往传统的聚类算法的性能会下降,从而降低了聚类的准确性


技术实现思路

[0003]以下是对本申请详细描述的主题的概述

本概述并非是为了限制权利要求的保护范围

[0004]本申请实施例提供了一种数据聚类方法

装置

电子设备及存储介质,能够提升多维时序数据的聚类准确性

[0005]一方面,本申请实施例提供了一种数据聚类方法,包括:
[0006]获取参考多维时序数据,在预设的目标连续分布中进行采样得到样本分布数据;
[0007]基于生成对抗网络的生成器对所述样本分布数据进行映射,得到维度大小与所述参考多维时序数据相同的样本对抗数据,基于编码器对所述样本对抗数据进行映射,得到维度大小与所述样本分布数据相同的样本编码数据;
[0008]根据所述样本编码数据和所述样本分布数据确定所述编码器的转换损失,根据所述参考多维时序数据和所述样本对抗数据确定所述生成对抗网络的对抗损失,根据所述转换损失和所述对抗损失,对所述编码器和所述生成对抗网络进行联合训练;
[0009]获取多个目标多维时序数据,根据训练后的所述编码器对所述目标多维时序数据进行映射,得到目标编码数据,根据所述目标编码数据得到多个所述目标多维时序数据的聚类结果

[0010]另一方面,本申请实施例还提供了一种模型训练方法,包括:
[0011]获取参考多维时序数据,在预设的目标连续分布中进行采样得到样本分布数据;
[0012]基于生成对抗网络的生成器对所述样本分布数据进行映射,得到维度大小与所述参考多维时序数据相同的样本对抗数据,基于编码器对所述样本对抗数据进行映射,得到维度大小与所述样本分布数据相同的样本编码数据;
[0013]根据所述样本编码数据和所述样本分布数据确定所述编码器的转换损失,根据所述参考多维时序数据和所述样本对抗数据确定所述生成对抗网络的对抗损失,根据所述转换损失和所述对抗损失,对所述编码器和所述生成对抗网络进行联合训练

[0014]另一方面,本申请实施例还提供了一种数据聚类装置,包括:
[0015]数据获取模块,用于获取参考多维时序数据,在预设的目标连续分布中进行采样得到样本分布数据;
[0016]第一处理模块,用于基于生成对抗网络的生成器对所述样本分布数据进行映射,得到维度大小与所述参考多维时序数据相同的样本对抗数据,基于编码器对所述样本对抗数据进行映射,得到维度大小与所述样本分布数据相同的样本编码数据;
[0017]训练模块,用于根据所述样本编码数据和所述样本分布数据确定所述编码器的转换损失,根据所述参考多维时序数据和所述样本对抗数据确定所述生成对抗网络的对抗损失,根据所述转换损失和所述对抗损失,对所述编码器和所述生成对抗网络进行联合训练;
[0018]第二处理模块,用于获取多个目标多维时序数据,根据训练后的所述编码器对所述目标多维时序数据进行映射,得到目标编码数据,根据所述目标编码数据得到多个所述目标多维时序数据的聚类结果

[0019]进一步,上述数据获取模块具体用于:
[0020]根据所述参考多维时序数据的序列长度,在预设的目标连续分布中进行采样,得到第一连续变量;
[0021]确定预设的聚类类别数量,根据所述聚类类别数量,利用随机数生成第一离散变量;
[0022]将所述第一连续变量和所述第一离散变量进行拼接,得到所述样本分布数据

[0023]进一步,所述目标连续分布为正态分布,上述数据获取模块具体用于:
[0024]根据预设的分布平均值和预设的分布标准差获取对应的正态分布;
[0025]对所述参考多维时序数据的序列长度进行取整,得到采样数量;
[0026]根据所述采样数量在所述正态分布中进行采样,得到所述第一连续变量

[0027]进一步,所述生成器包括第一线性层和反卷积层,上述第一处理模块具体用于:
[0028]将所述样本分布数据输入至所述生成对抗网络的生成器中;
[0029]基于所述第一线性层对所述样本分布数据进行全连接处理,得到第一分布数据;
[0030]基于所述反卷积层对所述第一分布数据进行反卷积处理,得到维度大小与所述参考多维时序数据相同的所述样本对抗数据

[0031]进一步,所述第一线性层的数量为两个,所述生成器还包括第一重塑单元,上述第一处理模块具体用于:
[0032]基于其中一个所述第一线性层对所述样本分布数据进行变换处理,得到第二分布数据;
[0033]基于另一个所述第一线性层对所述第二分布数据进行升维处理,得到第三分布数据;
[0034]基于所述第一重塑单元对所述第三分布数据进行重塑处理,得到所述第一分布数据

[0035]进一步,所述编码器包括第一卷积层和第二线性层,上述第一处理模块具体用于:
[0036]将所述样本对抗数据输入至所述编码器中;
[0037]基于所述第一卷积层对所述样本对抗数据进行卷积处理,得到第四分布数据;
[0038]基于所述第二线性层对所述第四分布数据进行全连接处理,得到维度大小与所述样本分布数据相同的所述样本编码数据

[0039]进一步,所述样本分布数据由第一连续变量和第一离散变量拼接得到,所述第二线性层的数量为两个,所述编码器还包括第二重塑单元和分割单元,上述第一处理模块具体用于:
[0040]基于所述第二重塑单元对所述第四分布数据进行重塑处理,得到第五分布数据;
[0041]基于其中一个所述第二线性层对所述第五分布数据进行降维处理,得到第六分布数据;
[0042]基于另一个所述第二线性层对所述第六分布数据进行变换处理,得到第七分布数据;
[0043]基于所述分割单元对所述第七分布数据进行分割处理,得到所述第二连续变量和所述第二离散变量,将所述第二连续变量和所述第二离散变量作为所述样本编码数据,其中,所述第二连续变量与所述第一连续变量的维度大小相同,所述第二离散变量与所述第一离散变量的维度大小相同

[0044]进一步,上述训练模块具体用于:
[0045]基于所述生成对抗网络的判别器得到所述参考多维时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据聚类方法,其特征在于,包括:获取参考多维时序数据,在预设的目标连续分布中进行采样得到样本分布数据;基于生成对抗网络的生成器对所述样本分布数据进行映射,得到维度大小与所述参考多维时序数据相同的样本对抗数据,基于编码器对所述样本对抗数据进行映射,得到维度大小与所述样本分布数据相同的样本编码数据;根据所述样本编码数据和所述样本分布数据确定所述编码器的转换损失,根据所述参考多维时序数据和所述样本对抗数据确定所述生成对抗网络的对抗损失,根据所述转换损失和所述对抗损失,对所述编码器和所述生成对抗网络进行联合训练;获取多个目标多维时序数据,根据训练后的所述编码器对所述目标多维时序数据进行映射,得到目标编码数据,根据所述目标编码数据得到多个所述目标多维时序数据的聚类结果
。2.
根据权利要求1所述的数据聚类方法,其特征在于,所述在预设的目标连续分布中进行采样得到样本分布数据,包括:根据所述参考多维时序数据的序列长度,在预设的目标连续分布中进行采样,得到第一连续变量;确定预设的聚类类别数量,根据所述聚类类别数量,利用随机数生成第一离散变量;将所述第一连续变量和所述第一离散变量进行拼接,得到所述样本分布数据
。3.
根据权利要求2所述的数据聚类方法,其特征在于,所述目标连续分布为正态分布,根据所述参考多维时序数据的序列长度,在预设的目标连续分布中进行采样,得到第一连续变量,包括:根据预设的分布平均值和预设的分布标准差获取对应的正态分布;对所述参考多维时序数据的序列长度进行取整,得到采样数量;根据所述采样数量在所述正态分布中进行采样,得到所述第一连续变量
。4.
根据权利要求1所述的数据聚类方法,其特征在于,所述生成器包括第一线性层和反卷积层,所述基于生成对抗网络的生成器对所述样本分布数据进行映射,得到维度大小与所述参考多维时序数据相同的样本对抗数据,包括:将所述样本分布数据输入至所述生成对抗网络的生成器中;基于所述第一线性层对所述样本分布数据进行全连接处理,得到第一分布数据;基于所述反卷积层对所述第一分布数据进行反卷积处理,得到维度大小与所述参考多维时序数据相同的所述样本对抗数据
。5.
根据权利要求4所述的数据聚类方法,其特征在于,所述第一线性层的数量为两个,所述生成器还包括第一重塑单元,所述基于所述第一线性层对所述样本分布数据进行全连接处理,得到第一分布数据,包括:基于其中一个所述第一线性层对所述样本分布数据进行变换处理,得到第二分布数据;基于另一个所述第一线性层对所述第二分布数据进行升维处理,得到第三分布数据;基于所述第一重塑单元对所述第三分布数据进行重塑处理,得到所述第一分布数据
。6.
根据权利要求1所述的数据聚类方法,其特征在于,所述编码器包括第一卷积层和第二线性层,所述基于编码器对所述样本对抗数据进行映射,得到维度大小与所述样本分布
数据相同的样本编码数据,包括:将所述样本对抗数据输入至所述编码器中;基于所述第一卷积层对所述样本对抗数据进行卷积处理,得到第四分布数据;基于所述第二线性层对所述第四分布数据进行全连接处理,得到维度大小与所述样本分布数据相同的所述样本编码数据
。7.
根据权利要求6所述的数据聚类方法,其特征在于,所述样本分布数据由第一连续变量和第一离散变量拼接得到,所述第二线性层的数量为两个,所述编码器还包括第二重塑单元和分割单元,所述基于所述第二线性层对所述第四分布数据进行全连接处理,得到维度大小与所述样本分布数据相同的所述样本编码数据,包括:基于所述第二重塑单元对所述第四分布数据进行重塑处理,得到第五分布数据;基于其中一个所述第二线性层对所述第五分布数据进行降维处理,得到第六分布数据;基于另一个所述第二线性层对所述第六分布数据进行变换处理,得到第七分布数据;基于所述分割单元对所述第七分布数据进行分割处理,得到所述第二连续变量和所述第二离散变量,将所述第二连续变量和所述第二离散变量作为所述样本编码数据,其中,所述第二连续变量与所述第一连续变量的维度大小相同,所述第二离散变量与所述第一离散变量的维度大小相同
。8.
根据权利要求1所述的数据聚类方法,其特征在于,所述根据所述参考多维时序数据和所述样本对抗数据确定所述生成对抗网络的对抗损失,包括:...

【专利技术属性】
技术研发人员:曹洋许宇彤刘铂熙王巍
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1