System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于锚点图拉普拉斯秩优化的自监督图像数据聚类方法技术_技高网

基于锚点图拉普拉斯秩优化的自监督图像数据聚类方法技术

技术编号:40991213 阅读:5 留言:0更新日期:2024-04-18 21:33
本发明专利技术公开了一种基于锚点图拉普拉斯秩优化的自监督图像数据聚类方法,首先构建基于二步跃迁概率的二部图矩阵并得到能够表征原始数据局部信息的小规模锚点相似度矩阵。接着,将求得的锚点相似度矩阵为基准,建立基于秩约束和逼近策略的锚点相似度矩阵优化模型,求得目标连通分量的锚点相似度矩阵进而直接获取所选锚点的伪标签。最后,通过K近邻算法将锚点伪标签向全样本传播以得到最终聚类结果。本发明专利技术通过基于自适应参数更新的秩约束优化锚点相似度矩阵,相比于传统图聚类方法的固定图学习模式泛化性能更强,显著提升了图像数据聚类效率,能够有效提升数据聚类准确率。

【技术实现步骤摘要】

本专利技术属于图像处理,具体涉及一种自监督图像数据聚类方法。


技术介绍

1、随着通信技术的高速发展,与日俱增的海量数据在蕴含着丰富宝贵信息的同时,也呈现出已知标签少、样本规模大和数据结构复杂等数据特性。因此,聚类技术凭借无需将标签作为算法先验知识的技术优势近年来已广泛应用于航迹预测、图像检索和识别等人工智能数据分析领域。其中,在图像识别领域中,研究人员在执行识别任务前通常采用k均值聚类算法对海量未知数据进行快速预处理以提升识别精度。然而,k均值算法由于无法处理非线性可分数据且仅考虑簇内聚类优化问题从而导致算法性能通常较差。基于图学习的谱聚类算法解决了这一局限性,其通过拉普拉斯图构建、特征值分解以及低维数据后处理三步完成全样本聚类。然而,谱聚类算法存在以下三个问题:1)拉普拉斯矩阵在后续数据处理过程中保持不变,因此易受核函数带宽和原始数据结构影响导致图质量过低,无法得到聚类最优解;2)特征值分解的时间复杂度与样本数的三次方成正比,使算法的大规模数据处理效率大幅降低;3)连续松弛求解以及数据后处理离散化在一定程度上会导致关键信息丢失进而导致聚类精度下降。

2、因此,诸多学者分别针对上述问题进行技术改进以提升传统谱聚类算法性能。例如,针对固定拉普拉斯图质量差的问题,赵云莱等人(《一种基于样本间离散系统改进的自适应聚类算法》,云南省:cn114970656a,2022-08-30.)提出了一种结构自适应谱聚类方法,其通过样本空间分布信息自适应地选择尺度参数,有效避免了离群点的影响。针对“松弛-离散化”过程的信息丢失问题,王靖宇等人(《一种基于熵正则化的自适应近邻人脸图像聚类方法》,陕西省:cn113298009a,2021-08-24.)提出了一种秩约束方法,其采用簇数与图连通分量数的等价关系直接获取聚类结果进而巧妙避开了数据后处理过程,减少了关键信息损失。然而,上述方法仅解决了谱聚类算法的部分局限性:赵云莱等人提出的自适应谱聚类算法仍采用传统特征值分解和离散化后处理方式执行聚类,其低效与信息丢失问题仍然存在;王靖宇等人提出的秩约束聚类方法尽管可以直接得到聚类结果,然而算法需要迭代地执行拉普拉斯矩阵特征值分解过程,相比于传统谱聚类耗时更长,效率更低,无法应用于大规模数据处理领域。因此,为实现大规模数据高效聚类,亟需研究能够同时解决传统谱聚类三种局限性的数据聚类分析技术。


技术实现思路

1、为了克服现有技术的不足,本专利技术提供了一种基于锚点图拉普拉斯秩优化的自监督图像数据聚类方法,首先构建基于二步跃迁概率的二部图矩阵并得到能够表征原始数据局部信息的小规模锚点相似度矩阵,所谓锚点是可以大致描述原始全样本数据结构的一系列稀疏点。紧接着,将上一步求得的锚点相似度矩阵为基准,建立基于秩约束和逼近策略的锚点相似度矩阵优化模型,求得目标连通分量的锚点相似度矩阵进而直接获取所选锚点的伪标签。最后,通过k近邻算法将锚点伪标签向全样本传播以得到最终聚类结果。本专利技术通过基于自适应参数更新的秩约束优化锚点相似度矩阵,相比于传统图聚类方法的固定图学习模式泛化性能更强,显著提升了图像数据聚类效率,能够有效提升数据聚类准确率,本专利技术除锚点数与近邻数两个整数参数外不包含任何超参数,并且将传统大矩阵优化结构创新性转化为小矩阵优化结构,在降低模型复杂度的同时显著提升了图像数据聚类效率,能够有效提升数据聚类准确率。

2、本专利技术解决其技术问题所采用的技术方案包括如下步骤:

3、步骤1:将n×p×q规模的图像数据集拉长为一个数据矩阵其中n为图像个数,p和q分别为图像的横向和纵向像素规模,d=p×q为像素总数;

4、步骤2:对矩阵x进行下采样,通过层级二分k均值算法获取m个覆盖原始数据点的稀疏锚点,生成锚点数据矩阵再通过如下自适应构图模型学习稀疏二部图矩阵

5、

6、其中,bj为二部图矩阵的第j列,bij为第i个图像向量xi与第j个锚点向量zj的相似度,γ0为正则化参数,1n为n维全1向量;

7、式(1)的闭式解为:

8、

9、其中,k为每个锚点的近邻样本数,xk+1为第j个锚点向量zj的第k+1近邻样本向量,xj'为zj的第j'近邻样本向量j'=1,2,...,k;在求解式(1)时,参数γ0能够自适应确定;

10、步骤3:计算小规模锚点相似度初始矩阵其中θ为对角矩阵,且θ的第i个对角元素为二部图矩阵b的第i行行和,记为θi,即小规模锚点相似度矩阵满足二步跃迁概率准则,即:

11、

12、其中,p(xi|zu)为第u个锚点zu向第i个样本点xi的跃迁概率,p(zv|xi)为第i个样本点xi向第v个锚点zv的跃迁概率;biu为xi与zu之间的相似度,由于二部图矩阵b的列和为1,因此biu直接表示从zu到xi的跃迁概率,即biu=p(xi|zu);biv为xi与zv之间的相似度,由于b的行和并不是1,需要通过θi对biv执行行和归一化以表示从xi到zv的跃迁概率,即biv/θi=p(zv|xi);

13、步骤4:将步骤3得到的锚点相似度矩阵a作为初始矩阵,构建基于秩约束的锚点相似度矩阵优化模型,其公式化表述如下:

14、

15、其中,s为待优化的锚点相似度矩阵,rank(ls)=m-c为基于锚点相似度矩阵的拉普拉斯秩约束,旨在获得拥有c个连通分量的s进而直接得到数据聚类结果;1m为m维全1向量,s1m=1m表明相似度矩阵满足概率意义;

16、由于秩约束的非凸特性,将式(4)进一步化简得到:

17、

18、其中,λ为秩约束正则化参数;

19、计算初始拉普拉斯矩阵ls=d-(at+a)/2,d为(at+a)/2的度矩阵,且第j,j=1,2,...,m个对角元素为(at+a)/2行和;

20、步骤5:更新锚点指示矩阵h,当相似度矩阵固定时,式(5)等价于:

21、

22、其中,最优由ls的最小c个特征值对应特征向量组成。

23、步骤6:更新锚点相似度矩阵s,当锚点指示矩阵固定时,优化问题(5)等价于:

24、

25、其中,

26、式(8)中不同锚点间相互独立,对于su得如下等价优化问题:

27、

28、步骤7:通过以下规则更新正则化参数λ:

29、(1)若rank(ls)>m-c,则表明s连通分量数少于c个,则令λ←2λ,并返回步骤5;

30、(2)若rank(ls)<m-c,则表明s连通分量数多于c个,则令λ←λ/2,并返回步骤5;

31、(3)若rank(ls)=m-c,表明连通分量恰好为c个,则直接得到m个锚点的伪标签并进行步骤8;

32、步骤8:采用k近邻算法将锚点伪标签向全样本扩散:对于任一样本点,查找最近的k个锚点,基于k个锚点的伪标签进行投票,获得最高票数的伪标签即为该样本本文档来自技高网...

【技术保护点】

1.一种基于锚点图拉普拉斯秩优化的自监督图像数据聚类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于锚点图拉普拉斯秩优化的自监督图像数据聚类方法,其特征在于,所述K=5。

【技术特征摘要】

1.一种基于锚点图拉普拉斯秩优化的自监督图像数据聚类方法,其特征在于,包括如下步骤:

2...

【专利技术属性】
技术研发人员:王靖宇马振宇聂飞平李学龙
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1