基于自监督字典学习的聚类算法制造技术

技术编号:27141786 阅读:14 留言:0更新日期:2021-01-27 21:18
本发明专利技术公开了本发明专利技术提供了一种基于自监督字典学习的聚类算法,该方法在深度字典学习的基础上应用自监督技术,先通过深度字典学习网络对数据进行稀疏表示并构建相似度矩阵,然后分别链接在稀疏表示层后的聚类模块利用相似度矩阵对数据进行标注形成伪标签和分类网络模块实现对数据的分类操作,分类结果与聚类得到的伪标签相比较,构建自监督损失,实现对字典学习网络的监督。本发明专利技术为如何充分利用深度字典学习训练过程中无标签数据的内在特征提供解决方案,利用已得到的结果来约束学习过程,优化整个深度字典学习网络,同时提升字典学习的性能。学习的性能。学习的性能。

【技术实现步骤摘要】
基于自监督字典学习的聚类算法


[0001]本专利技术属于知识表示
,涉及一种基于自监督字典学习的聚类算法。

技术介绍

[0002]随着计算机技术和互联网的快速发展,复杂的高维数据信息呈指数增长,关于如何对数据进行获取、压缩、存储、传输和分析的问题吸引大量学者的关注。字典学习和稀疏表示是寻找复杂数据的潜在特征表示的方法之一,应用于计算机视觉、机器学习等领域,并且取得优秀成果。聚类作为无监督学习领域的重要分支,是处理高维数据的重要任务之一,在计算机视觉、生物信息等领域均有应用价值。
[0003]字典学习和稀疏表示求解或稀疏编码问题一直深受学界和工业界的关注,很多研究人员对于本专利技术提到的字典学习和聚类任务有过类似尝试,Pablo Sprechmann等人提出一个Cross-Incoherence项重新定义稀疏表示的标准,并且在聚类过程中为每一个数据的类别都定义字典,构建一个不断学习字典和再聚类的框架,提高稀疏表达和聚类的有效性。
[0004]由于数据量的不断增长,相应的处理需求也在不断扩大。在考虑解决计算两问题上,Sujit Kumar Sahoo等人研究发现一种结合K-means聚类和奇异值(Singular Value Decomposition)分解的K-SVD字典学习方法,由于奇异值分解的使用干扰了稀疏编码和原子的单位范数,因此无法保留任何结构稀疏性,但因其顺序算法而能用较少的资源进行计算;MOD(Method of Optimal Directions)算法既能保留结构稀疏性还能简化了K-means算法,类似于K均值聚类的一种并行推广;由于顺序算法所需计算资源更少,因此提出一种SKG算法(SEQUENTIAL GENERALIZA TION OF K-MEANS)替代MOD算法,提高计算速度。

技术实现思路

[0005]本专利技术的目的是提供一种基于自监督字典学习的聚类算法,具有实现聚类得到的伪标签和分类得到的分类标签相比较,构建自监督损失,实现自监督效果的特点。
[0006]本专利技术所采用的技术方案是,基于自监督字典学习的聚类算法,具体按照以下步骤实施:
[0007]步骤1、预训练深度字典学习网络;
[0008]步骤2、训练自监督字典学习网络。
[0009]本专利技术的特点还在于:
[0010]步骤1中深度字典学习网络是从输入数据到输出字典都为线性网络结构,深度字典学习网络采用逐层训练学习的思想,单层字典学习由输入结点和输出稀疏表示层构成;
[0011]步骤2中自监督字典学习网络的结构为由深度字典学习网络和深度字典学习网络中稀疏表示的网络层链接出来的分类模块和聚类模块构成。
[0012]聚类模块采用基于图论的谱聚类方法得到数据样本的聚类簇结果,将其作为数据集的伪标签,并且将聚类输出结果转化为对应k维向量,k为聚类簇个数,对应分类网络,聚类模块的结果就作为分类网络的训练目标;
[0013]分类模块结构为两层全连接层,链接在深度字典学习的稀疏表示层后,以聚类结果为训练目标,对数据进行分类,用于监督特征提取和字典学习网络;
[0014]聚类模块采用的谱聚类利用字典学习网络得到的相似度矩阵W计算度矩阵D,即相似度矩阵的每一行元素之和,再计算出拉普拉斯矩阵S:
[0015]S=D-W
[0016]将拉普拉斯矩阵S中的特征值从大到小排列,计算前k个特征值对应的特征向量,用K-means算法对其聚类,得到k个聚类簇,即为聚类簇结果。
[0017]步骤1将训练数据输入到未经训练的神经网络中,以将输入数据尽可能稀疏表示为目标,利用字典和稀疏表示构建的输入同原始数据比较作为深度字典学习网络的损失函数L
*
在GPU上进行训练并保存深度字典学习网络的参数,具体按照以下步骤实施:
[0018]步骤1.1、数据的预处理工作,对图像进行去色及下采样;
[0019]步骤1.2、通过分块调试,封装函数和整合类别搭建深度字典学习网络;
[0020]步骤1.3、测试步骤2所得的深度字典学习网络,将测试数据输入赋予相关参数的网络中,测试是否能重建原始图像;
[0021]步骤1.4、输入训练数据,在GPU上训练深度字典神经网络,调整深度字典神经网络的具体参数,最后可以得到对应的基于字典的稀疏表示,保存网络参数。
[0022]步骤2先通过深度字典学习网络得到数据的稀疏表示并构建样本间的相似度矩阵,然后利用现阶段的稀疏表示通过在CPU上执行的聚类模块生成的结果作为伪标签,同时分类网络以伪标签作为训练目标对数据进行分类操作,通过计算分类结果和预期标签之间的误差,调整自监督损失函数L
s
再训练,完成神经网络的反向传播,实现自监督,提升字典学习效率,具体按照以下步骤实施:
[0023]步骤2.1、自监督字典学习网络中的聚类模块通过在相似度矩阵上应用谱聚类得到样本的聚类簇结果,聚类簇结果形成的伪标签作为分类网络的训练目标,每次学习过程都会执行一次聚类;
[0024]步骤2.2、分类网络模块对数据进行分类,同时利用步骤2.1得到的伪标签和得到的分类结果构建分类损失,实现对稀疏表示学习的自监督作用。
[0025]步骤2.1具体按照以下步骤实施:
[0026]步骤2.1.1、通过计算余弦相似度得到相似度矩阵W,将相似度矩阵中特征值从大到小排列,取前k个特征值并计算对应的特征向量,组成向量矩阵;
[0027]步骤2.1.2、将步骤2.1.1得到的向量矩阵聚类成簇,即可得到聚类簇结果,将聚类簇结果作为学习过程中的伪标签。
[0028]步骤2.1.3、聚类簇结果传到分类模块,作为分类网络的训练目标。
[0029]步骤2.2具体按照以下步骤实施:
[0030]步骤2.2.1、分类模块对从稀疏表示层传入的数据进行分类;
[0031]步骤2.2.2、分类模块在进行分类操作的同时得到聚类模块生成的伪标签,通过计算分类结果同预期标签之间的误差来监督字典学习网络的特征提取。
[0032]步骤1的深度字典学习网络的损失函数L
*
为:
[0033][0034]式(1)中,X为原始输入数据,Z为字典上的表示,D1…
D
n
分别对应多层字典的每一层。
[0035]深度字典学习网络中样本间的相似度矩阵构建需要采用余弦相似度计算两个样本点间的距离,定义为:
[0036][0037]式(2)中,x,y为两个向量,假设一共有N个样本,通过式(2)计算得到一个N
×
N的相似度矩阵W。
[0038]自监督损失由分类结果和伪标签误差和聚类模块中样本点和所属聚类簇中心的距离误差两部分构成,自监督损失函数L
s
表示为
[0039][0040]式(3)中:N为样本数,y
i
为分类网络模型的输出,q
i
为聚类模块生成的伪标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督字典学习的聚类算法,其特征在于,具体按照以下步骤实施:步骤1、预训练深度字典学习网络;步骤2、训练自监督字典学习网络。2.根据权利要求1所述的一种基于自监督字典学习的聚类算法,其特征在于,所述步骤1中深度字典学习网络是从输入数据到输出字典都为线性网络结构,所述深度字典学习网络采用逐层训练学习的思想,单层字典学习由输入结点和输出稀疏表示层构成;所述步骤2中自监督字典学习网络的结构为由深度字典学习网络和深度字典学习网络中稀疏表示的网络层链接出来的分类模块和聚类模块构成。3.根据权利要求2所述的一种基于自监督字典学习的聚类算法,其特征在于,所述聚类模块采用基于图论的谱聚类方法得到数据样本的聚类簇结果,将其作为数据集的伪标签,并且将聚类输出结果转化为对应k维向量,k为聚类簇个数,对应分类网络,聚类模块的结果就作为分类网络的训练目标;所述分类模块结构为两层全连接层,链接在深度字典学习的稀疏表示层后,以聚类结果为训练目标,对数据进行分类,用于监督特征提取和字典学习网络;所述聚类模块采用的谱聚类利用字典学习网络得到的相似度矩阵W计算度矩阵D,即相似度矩阵的每一行元素之和,再计算出拉普拉斯矩阵S:S=D-W将所述拉普拉斯矩阵S中的特征值从大到小排列,计算前k个特征值对应的特征向量,用K-means算法对其聚类,得到k个聚类簇,即为聚类簇结果。4.根据权利要求3所述的一种基于自监督字典学习的聚类算法,其特征在于,所述步骤1将训练数据输入到未经训练的神经网络中,以将输入数据尽可能稀疏表示为目标,利用字典和稀疏表示构建的输入同原始数据比较作为深度字典学习网络的损失函数L
*
在GPU上进行训练并保存深度字典学习网络的参数,具体按照以下步骤实施:步骤1.1、数据的预处理工作,对图像进行去色及下采样;步骤1.2、通过分块调试,封装函数和整合类别搭建深度字典学习网络;步骤1.3、测试步骤2所得的深度字典学习网络,将测试数据输入赋予相关参数的网络中,测试是否能重建原始图像;步骤1.4、输入训练数据,在GPU上训练深度字典神经网络,调整深度字典神经网络的具体参数,最后可以得到对应的基于字典的稀疏表示,保存网络参数。5.根据权利要求4所述的一种基于自监督字典学习的聚类算法,其特征在于,所述步骤2先通过深度字典学习网络得到数据的稀疏表示并构建样本间的相似度矩阵,然后利用现阶段的稀疏表示通过在CPU上执行的聚类模块生成的结果作为伪标签,同时分类网络以伪标签作为训练目标对数据进行分类操作,通过计算分类结果和预期标签之间的误差,调整自监督...

【专利技术属性】
技术研发人员:杨博刘诗仪
申请(专利权)人:西安工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1