【技术实现步骤摘要】
基于簇置信度的深度聚类集成方法、装置、设备和介质
[0001]本专利技术涉及数据挖掘和人工智能
,特别是一种基于簇置信度的深度聚类集成方法、装置、设备和介质。
技术介绍
[0002]随着5G时代的到来,大数据应用得到了快速发展,这些应用所产生的数据往往具有大规模、非结构化和高维度的特点,从这些复杂的数据中挖掘简单而有效的信息是一项非常具有挑战性的任务。数据聚类分析是一种经典的无监督机器学习方法,可以有效地揭示和挖掘数据的潜在知识模式,其目的是根据数据空间中的相似性、密度、区间或特定的统计分布度量对数据进行分组。传统的聚类方法,如K
‑
means和高斯混合聚类,在很多领域都取得了良好的聚类性能。然而,面对大规模、高维的非结构化数据,传统的聚类方法效果并不理想,甚至失败,这是因为一方面,这些数据往往表现出比较稀疏的分布,使得它们很难被分割;另一方面,大多数传统聚类方法只能利用数据的浅层特征,无法挖掘潜在空间中复杂数据特征的相互依赖关系。
[0003]近年来,深度聚类方法的出现和发展,为解决这一难题 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于簇置信度的深度聚类集成方法,其特征在于,包括步骤:将待处理的原始数据进行预处理和清洗,生成输入样本集;利用所述输入样本集对变分自编码网络进行预训练并计算预训练产生的初始低维嵌入的簇置信度;基于学生t分布和KL散度损失对所述变分自编码网络进行聚类损失训练,计算聚类损失训练后产生的最终低维嵌入的簇置信度;根据所述初始低维嵌入的簇置信度和所述最终低维嵌入的簇置信度,计算所述变分自编码网络的最终低维嵌入的簇置信度得分并排序;在所述最终低维嵌入产生的各基聚类中,选取簇置信度得分高的前设定数量个最终低维嵌入对应的目标基聚类;采用局部加权策略计算各所述目标基聚类中簇可靠性,构建局部加权二部图并采用Tcut图切算法对所述局部加权二部图进行分割,得到所述输入样本集最终的集成聚类结果。2.根据权利要求1所述的基于簇置信度的深度聚类集成方法,其特征在于,利用所述输入样本集对变分自编码网络进行预训练的过程,包括:设定每个输入样本的后验概率的隐藏层变量分布遵循正态分布;在预训练中采用KL散度对后验概率的隐藏层变量分布和标准正态分布进行度量,确定非聚类损失;根据所述非聚类损失利用所述输入样本集进行所述变分自编码网络的预训练。3.根据权利要求2所述的基于簇置信度的深度聚类集成方法,其特征在于,计算预训练产生的初始低维嵌入的簇置信度的过程,包括:分别计算变分自编码网络中各变分自编码器的各个簇的置信度;分别根据各所述变分自编码器的各个簇的置信度,计算各所述变分自编码器的所述初始低维嵌入的簇置信度。4.根据权利要求1至3任一项所述的基于簇置信度的深度聚类集成方法,其特征在于,基于学生t分布和KL散度损失对所述变分自编码网络进行聚类损失训练的过程,包括:采用学生t分布度量所述变分自编码网络的隐藏层变量与聚类中心的相似度;利用KL散度损失作为构建的辅助分布和待迭代优化的软簇分配之间的聚类损失,进行所述聚类损失训练。5.根据权利要求4所述的基于簇置信度的深度聚类集成方法,其特征在于,各所述目标基聚类中簇可靠性通过如下公式进行计算度量:其中,ECE(C
i
)表示簇C
i
的集成簇可靠性度量,H
Π
(C
技术研发人员:钱悦,曾令斌,程勇,黄友,方宏,吴添君,姚世新,张亮,周勇,邱志楠,郭欣,方雪垠,沈高,汪浩,杨扬,易恒柱,曹远,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。