一种基于半监督的中心乘积量化检索方法技术

技术编号：33645170 阅读：16 留言：0更新日期：2022-06-02 20:21

本发明专利技术提出一种基于半监督的中心乘积量化图像检索方法，通过特征提取后将空间切分为若干个子空间，然后对特征向量进行归一化处理，计算余弦距离让子向量能找到相应子空间中最接近的码字。计算过程中使用半监督损失模块减小量化误差，最小化标记数据的经验误差和未标记数据的嵌入误差，最后用码字替代子向量化为二进制码存储到乘积量化查找表中，通过非对称距离计算进行图像检索；本发明专利技术提出的方法具有更强的鲁棒性，提高图像检索的精度。提高图像检索的精度。提高图像检索的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督的中心乘积量化检索方法

[0001]本专利技术涉及图像检索
，特别是指一种基于半监督的中心乘积量化检索方法。

技术介绍

[0002]随着互联网的快速发展和移动设备的普及，各行各业积累的数据都呈现出爆炸式增长趋势。在这个时代，用户如何在大规模的图像数据中高效而又精准的检索到需要的图像数据信息，成为研究热点。目前已经有许多学者研发出快速准确的检索算法，近似最近邻(ANN)由于具有较高的计算速率和检索精度成为了数据检索中使用最为广泛的技术。
[0003]哈希方法在内存消耗和检索速度方面有着明显的优势，具体来说，该方法将高维图像映射成固定长度的散列值并保持原始空间中的相似性，通过合适的哈希函数将高维数据转换为汉明空间中紧凑的二进制散列码，通过它来建立检索数据库并计算距离。基于二进制哈希的方案使用哈希函数将高维数据映射到Hamming空间后按位异或运算快速测量距离，而不是计算余弦相似度或欧氏距离。然而，基于哈希方法的神经网络搜索精度过度依赖于哈希函数，而且，哈希方法只能产生有限数量的不同值，限制了描述点之间的距离。
[0004]哈希方法根据是否采用有监督的信息又可以分为无监督哈希和有监督哈希,有监督哈希模型利用图像标签等语义信息生成更有效的哈希码，但是高度依赖于标签，相反，未标记的数据数据集数量多又免费，因此无监督哈希模型为更实际的应用提供了一种经济高效的解决方案。现有的无监督散列方法大多采用基于图形的范式，通常会存在“静态图”问题，而且大多只是设计了损失函数保持语义信息，并没有考虑到未标记...

【技术保护点】

【技术特征摘要】
1.一种基于半监督的中心乘积量化检索算法，其特征在于，其包括以下处理步骤：步骤1：将未标记图像数据和标记图像数据组成的数据集通过特征提取器生成D维特征，并对特征向量进行归一化处理，将它们约束在一个单位超球面上；步骤2：根据步骤1得到的D维特征，通过空间切分分成M份，产生d维子空间，d＝D/M，每个子空间中有K个聚类中心，同时特征向量被分为M个子向量，乘积量化表收集M个码本，每个码本有K个码字；步骤3：将步骤2得到的子向量预处理后通过余弦相似度距离计算方法映射到最近的码字，并通过半监督损失模块最小化标记数据的经验误差和未标记数据的嵌入误差；步骤4：将步骤3中得到的与子向量距离最近的码字替代子向量并格式化为子二进制码，并且将所有子二进制码连接起来形成最终的二进制码存储到乘积量化表中；步骤5：输入待检索图像，通过乘积量化查找表加载预计算的距离，并且聚合所有加载的预计算的距离来进行非对称计算，得到最小预计算的距离，实现图像检索，所述预计算的距离为查询图像与数据库中二进制代码的距离。2.如权利要求1所述的基于半监督的中心乘积量化检索算法，其特征在于，步骤3中子向量预处理后通过余弦相似度距离计算方法映射到最近的码字，还包括根据软量化器得到余弦相似度的距离，计算公式如下：式中：α表示软量化器的硬量化因子，k＝1,2,3...K，m＝1,2,3...M；X
m
为子向量，T
mk
为码本中的码字；S
m

【专利技术属性】
技术研发人员：郭泽添，洪朝群，庄艳辉，周卉芬，范一庆，
申请(专利权)人：厦门理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人