基于标记样本扩充和样本选择的数据检索方法及系统技术方案

技术编号:37060809 阅读:25 留言:0更新日期:2023-03-29 19:38
本公开提供了一种基于标记样本扩充和样本选择的数据检索方法及系统,属于数据挖掘处理技术领域,包括获取待检索的图像样本,利用样本外扩展映射计算其哈希码;计算待检索图像样本与检索数据库中哈希码的海明距离,并按照海明距离从小到大的次序返回相似数据,基于基于标记样本及其标签建立监督损失,基于无标记样本及其伪标签建立无监督损失,根据监督损失和无监督损失建立半监督哈希的目标函数;在目标函数优化和样本选择间迭代,获取检索数据库的哈希码,并利用检索数据库的哈希码学习样本外扩展映射,能够在一定程度上提高半监督哈希方法的训练效率和稳定性。方法的训练效率和稳定性。方法的训练效率和稳定性。

【技术实现步骤摘要】
基于标记样本扩充和样本选择的数据检索方法及系统


[0001]本公开涉及数据挖掘处理
,具体涉及基于标记样本扩充和样本选择的图像数据检索方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]网络大数据时代下,人们的日常工作与交流越来越离不开海量的图像数据,与此同时,图像检索技术也在各个领域得到广泛应用。随着图像规模呈现几何级数增长,图像维度也在增加,传统的图像检索方法面临所需存储空间大、检索速度慢等挑战。在众多检索方法中,基于哈希的检索方法不仅在特征学习方面表现出优越性,而且具有存储空间小、检索速度快的优点,因而备受关注。
[0004]现有的基于哈希的检索方法中,效果较好的都是监督哈希方法,这些方法依赖于大量标记样本,借助其标签的语义信息来指导哈希码和哈希函数的学习。然而,由于人工标注费时费力,标记样本难于获取,大量的、方便获取的数据是没有标签的,因此,对半监督哈希方法的研究具有重要的现实意义。
[0005]为了探索无标记样本中潜在的语义信息,一些基本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于标记样本扩充和样本选择的数据检索方法,其特征在于,包括:获取待检索的图像样本,利用样本外扩展映射计算其哈希码;计算待检索图像样本与检索数据库中哈希码的海明距离,并按照海明距离从小到大的次序返回相似数据;其中,基于一个标记样本扩充策略对无标记样本打伪标签;基于标记样本及其标签建立监督损失,基于无标记样本及其伪标签建立无监督损失,根据监督损失和无监督损失建立半监督哈希的目标函数;在目标函数优化和样本选择间迭代,获取检索数据库的哈希码,并利用检索数据库的哈希码学习样本外扩展映射。2.如权利要求1所述的基于标记样本扩充和样本选择的数据检索方法,其特征在于,所述标记样本扩充策略为:对每一类标记样本,利用bi

kmeans算法确定簇中心,作为该类样本的质心;然后,将这些质心作为锚点,利用局部锚点嵌入算法得到对无标记样本的重建权重系数;最后,利用重建权重系数对相应类别进行加权,得到无标记样本的伪标签。3.如权利要求1所述的基于标记样本扩充和样本选择的数据检索方法,其特征在于,所述目标函数由监督损失、无监督损失和监督哈希模型与无监督哈希模型的差异损失构成。4.如权利要求1所述的基于标记样本扩充和样本选择的数据检索方法,其特征在于,所述监督损失由成对相似度嵌入损失、标签嵌入损失和哈希投影的量化损失构成,无监督损失由样本选择损失和自步正则化损失构成。5.如权利要求4所述的基于标记样本扩充和样本选择的数据检索方法,其特征在于,无监督损失采用自步学习框架,通过计算样本的难易度进行样本的选择。6.如权利要求1所述的基于标记样本扩充和样本选择的数据检索方法,其特征在于,在目标函数优化和样本选择间迭代的过程中,采用自步学...

【专利技术属性】
技术研发人员:刘兴波张雪凝聂秀山王少华尹义龙
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1