基于自步学习和数据增强的聚类方法技术

技术编号:42656922 阅读:17 留言:0更新日期:2024-09-10 12:16
本发明专利技术涉及一种基于自步学习和数据增强的聚类方法,包括以下步骤:在预训练阶段中,全连接的自动编码器通过最小化输入增强的例子和输出重构的例子之间的均值误差损失Lr来进行训练;在微调阶段中,首先从预训练的自动编码器中摘录编码器,得到输入的原样本xi的特征点zi;将特征点zi反馈给k‑means算法来确定分区,然后交替更新w,u和聚类分配ai,w表示编码器的参数,u表示解码器的参数。本发明专利技术通过自适应的自步学习方法,将随机擦除数据增强技术融入到基本模型的两个阶段中,通过忽略靠近决策边界的样本来稳定所提出的深度聚类模型的训练,控制选取可信度高的样本训练。本发明专利技术提出了算法的优化过程,并进行了算法流程和复杂度分析,展示了整个模型的设计图。通过忽略靠近决策边界的样本来稳定所提出的深度聚类模型的训练。本发明专利技术将随机擦除数据增强技术融入到基本模型的两个阶段中,提升聚类算法的精度。

【技术实现步骤摘要】

本专利技术涉及聚类模型的训练,特别涉及一种基于自步学习和数据增强的聚类方法


技术介绍

1、聚类的主要目的是将数据分离,将相似的数据归类到同一个簇中。能将数据很好地分离成簇在数据分析和数据可视化的许多应用中是最基本的。

2、然而,当前聚类方法的性能在很大程度上取决于输入数据的质量。不同的数据集通常需要不同的衡量相似度方法和分离技术。利用深度神经网络(dnns)可以通过学习非线性映射,从而将数据转化为更容易被聚类的表征,而不需要手动提取或选择特征。

3、大多数现有的深度聚类算法通过使用由聚类中心和聚类分配定义的损失函数来调整深度神经网络的参数,然而,这些方法没有明确考虑到靠近决策边界的样本对深度神经网络训练的影响。由于深度神经网络的目标是学习那些更适合用于聚类的特征,因此那些靠近决策边界的样本无法给予可信度高的引导。


技术实现思路

1、本专利技术的目的是:本专利技术要解决输入数据的质量不同影响数据聚类分布的技术问题,提供一种基于自步学习和数据增强的聚类方法。

<p>2、本专利技术的本文档来自技高网...

【技术保护点】

1.一种基于自步学习和数据增强的聚类方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于自步学习和数据增强的聚类方法,其特征在于:预训练后进入微调阶段,目标函数为:

3.如权利要求2所述的一种基于自步学习和数据增强的聚类方法,其特征在于:在微调阶段,对w和a进行交替优化,当a被给定时,有:

4.如权利要求1所述的一种基于自步学习和数据增强的聚类方法,其特征在于:预训练后进入微调阶段,目标函数为:

5.如权利要求1所述的一种基于自步学习和数据增强的聚类方法,其特征在于:在预训练阶段,重构损失函数为:

>6.如权利要求1所...

【技术特征摘要】

1.一种基于自步学习和数据增强的聚类方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于自步学习和数据增强的聚类方法,其特征在于:预训练后进入微调阶段,目标函数为:

3.如权利要求2所述的一种基于自步学习和数据增强的聚类方法,其特征在于:在微调阶段,对w和a进行交替优化,当a被给定时,有:

4...

【专利技术属性】
技术研发人员:鲍雪康龙
申请(专利权)人:中国航发哈尔滨东安发动机有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1