A deep semi supervised image clustering method based on label adaptive strategy, which belongs to the field of image clustering and data mining technology. 1) pre training codec network, initializing feature embedding space; 2) initializing cluster center in potential feature space through K \u2011 means method; 3) calculating soft distribution and target distribution of clustering results, generating cluster loss based on KL divergence; 4) using label self The adaptive strategy generates the temporary supervision label dynamically, and generates the label loss based on cross entropy; 5) calculates and optimizes the joint objective function, updates iteratively until the convergence conditions are met, and completes the clustering learning. The invention designs a depth semi supervised clustering method for image data, considers the label drift in the clustering process, and designs a label adaptive strategy to dynamically adapt to the label drift, integrates the clustering loss and label loss, jointly optimizes the potential feature space and adjusts the cluster center, which can effectively improve the performance of clustering method.
【技术实现步骤摘要】
一种基于标签自适应策略的深度半监督图像聚类方法
本专利技术属于图像聚类与数据挖掘
,涉及一种基于标签自适应策略的深度半监督图像聚类方法。
技术介绍
随着网络信息技术和数据采集技术的飞速发展,人们不断地与外界进行数据交换,从而导致数据量的爆炸性增长。同时智能手机和照相机的广泛应用,造成了图像数据的迅猛增长。尽管互联网上不断增长的图像数据中包含丰富的信息,但要从中获取真正有价值的信息却也变得更加困难。庞大的数据量使得我们迫切需要一种新方法来深入挖掘大规模图像数据中蕴含的真正有价值的信息。数据挖掘技术可以从大量不完整、嘈杂和随机的数据中挖掘隐藏的、潜在的和有价值的信息。它不仅可以学习已有的知识,还可以从数据中发现未知的规律。图像聚类是图像处理技术中重要的研究内容之一,其目的在于将拥有类似特征或空间属性的图像归为一类,进而在面对海量图像数据时提高图像的管理和检索性能。近年来,许多研究者已经投入到图像聚类领域中,并取得了很大的成果。但是由于图像数据往往表现为高维属性导致其具有不可靠的相似性指标。因此在面对具有较高维度的图 ...
【技术保护点】
1.一种基于标签自适应策略的深度半监督图像聚类方法,其特征在于,所述的深度半监督图像聚类方法包括以下步骤:/n步骤1、学习潜在特征空间;/n采用堆叠自编码器网络构建高维数据的低维特征空间,学习原始图像数据的低维语义表示;利用降噪自编码机逐层初始化堆叠自编码器网络,设定x表示降噪自编码机的输入,t表示降噪自编码机的输出,具体的计算过程如下:/n
【技术特征摘要】
1.一种基于标签自适应策略的深度半监督图像聚类方法,其特征在于,所述的深度半监督图像聚类方法包括以下步骤:
步骤1、学习潜在特征空间;
采用堆叠自编码器网络构建高维数据的低维特征空间,学习原始图像数据的低维语义表示;利用降噪自编码机逐层初始化堆叠自编码器网络,设定x表示降噪自编码机的输入,t表示降噪自编码机的输出,具体的计算过程如下:
其中,Dropout(·)是一个随机映射,随机地将输入层的一部分随机设置为0,是对输入x进行随机映射后的结果,h是降噪自编码机的中间输出结果,是对h进行随机映射后的结果,g1和g2分别代表编码器和解码器的激活函数,θ={W1,b1,W2,b2}是网络的参数;降噪自编码机通过最小化平方损失来完成训练;在训练完第一层之后,第一层的输出h作为下一层的输入,依据公式(1)、(2)、(3)、(4)训练网络第二层,以此类推,逐层初始化堆叠自编码器网络;为保证重构初始输入和最终的潜在空间能包含全部的信息,将第一组自编码器的g2和最后一组自编码器的g1设置为常数1,除此之外,所有自编码器的g1和g2都设置为ReLU激活函数;逐层训练后,将所有的编码器层和解码器层连接起来,使用随机梯度下降算法微调整个网络,最小化重构损失,最终得到一个多层的已初始化的深度自编码器网络;然后,使用编码器层作为初始数据空间和潜在特征空间之间的初始映射fθ:X→Z,其中θ是学习到的参数,X是图像的初始数据空间,Z是潜在特征空间;
步骤2、初始化聚类簇心;
给定n个图像样本的集合使用已初始化的深度自编码器网络,生成数据点xi在潜在特征空间Z中的对应点zi=fθ(xi)∈Z,利用K-means聚类方法在潜在特征空间中得到k个初始化的聚类簇心采用欧氏距离平方度量样本之间的相似度,将样本与其所属类的簇心之间的距离总和作为损失函数,K-means的过程即最小化损失函数(5):
其中,j=C(i)表示划分,其中i∈{1,2,...,n},j∈{1,2,...,k};由于上式的直接求解是NP难的问题,因此只能采用启发式的迭代方法进行求解;首先随机选择k个类的簇心,将样本逐个指派到与其最近的簇心的类中,得到中间聚类结果;然后更新每个类的簇心的均值,作为类的新的簇心;重复以上步骤,直到划分不再改变,得到聚类结果,并将最终的聚类结果用作潜在特征空间中的初始聚类簇心;
步骤3、深度嵌入聚类;
给定初始非线性映射fθ和初始化的聚类簇心交替使用下述两个步骤来改善聚类性能;第一步,计算潜在特征空间中的数据点和聚类簇心之间的软分配;第二步,利用辅助目标分布从当前的高置信分配中学习聚类损失;
1)软分配
使用Student’s-t分布来测量特征点zi和簇心μj之间的相似度,计算公式如下:
其中,zi=fθ(xi)∈Z表示原始数据xi∈X在潜在特征空间中的对应点,qij为样本i被分配到类别j的概率;...
【专利技术属性】
技术研发人员:陈志奎,李超杰,高静,李朋,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。