一种数据依赖的多索引哈希算法制造技术

技术编号：13428244 阅读：45 留言：0更新日期：2016-07-29 18:17

本发明专利技术提出一种数据依赖的多索引哈希算法，涉及图像检索领域。本发明专利技术包括以下步骤：步骤1，构建一个训练集用于主成分分析PCA训练；步骤2，计算训练集T的均值向量μ和训练集T的协方差矩阵S；步骤3，对于每一个子串均获取其对应的协方差矩阵S'，S'是S的一个子矩阵，并对协方差矩阵S'进行特征值分解，得到对应最大特征值的特征向量V，特征向量V即为子串的自适应投影向量；步骤4，在建立索引和查询时，使用自适应投影向量对子串进行投影从而得到哈希表中的下标。本发明专利技术采用自适应投影的方法可以使得哈希表中的元素接近于均匀分布，进而提升查询速度，与多索引哈希算法相比数据依赖的多索引哈希算法可以使查询速度提升36.9％–87.4％。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像索引
，尤其涉及一种数据依赖的多索引哈希算法。
技术介绍
图像检索的过程通常为以下几个步骤：首先，利用计算机处理技术检测图像的视觉特征；其次，用数字表示检测到的特征并生成高维特征向量；然后，对高维特征向量建立索引；最后，利用索引对高维向量进行检索。其中图像检索是在线进行的，所以对实时性要求很高。由于二进制码特征计算快速、节省存储空间、特征之间的匹配操作仅需要几个机器指令就能完成，目前越来越多的研究采用二进制码特征来描述视觉内容。在一个具有百万规模的二进制码数据集中查找一个查询的最近邻可以在不到一秒的时间内完成。虽然二进制码之间的海明距离可以快速计算，但是线性查询只能处理小规模的数据集。因为计算机处理器的计算能力有限而数据集的规模是无限的，随着数据集的增长(数以百亿)线性查询将变得很慢。为了提高大规模数据环境下二进制码的最近邻查询性能，研究者提出了二进制哈希方法。该方法在建索引时，直接使用二进制码作为哈希表的下标(存储地址)。在查询时，通过不断增加查询半径即可返回与查询相似的最近邻。但是随着查询半径的增加，该方法需要比对的待检测数据呈指数级的增长。当二进制码的位数大于32维时，即使采用一个很小的查询半径二进制哈希在理论上需要比对的数据规模可能比整个数据集的容量还要大。在这种情况下，二进制哈希比线性查询的速度还要慢。针对这一问题，研究者提出了多索引哈希算法。多索引哈希算...

【技术保护点】
一种数据依赖的多索引哈希算法，其特征在于，步骤1，构建一个训练集T＝[x1,xi,…,xn]用于主成分分析PCA训练，所述xi是一个l维二进制码，用一个列向量表示；步骤2，利用公式计算训练集T的均值向量μ，利用公式计算训练集T的协方差矩阵S；步骤3，对于每一个子串均获取其对应的协方差矩阵S'，所述S'是S的一个子矩阵，并对协方差矩阵S'进行特征值分解，得到对应最大特征值的特征向量V，所述特征向量V即为该子串的自适应投影向量；步骤4，在建立索引和查询时，使用自适应投影向量对子串进行投影从而得到哈希表中的下标。

【技术特征摘要】
1.一种数据依赖的多索引哈希算法，其特征在于，
步骤1，构建一个训练集T＝[x1,xi,…,xn]用于主成分分析PCA训练，所述xi是
一个l维二进制码，用一个列向量表示；
步骤2，利用公式计算训练集T的均值向量μ，利用公式
计算训练集T的协方差矩阵S；
步骤3，对于每一个子串均获取其对应的协方差矩阵S'，所述S'是S的一个
子矩阵，并对协方差矩阵S'进行特征值分解，得到对应最大特征值的特征向量V，
所述特征向量V即为该子串的自适应投...

【专利技术属性】
技术研发人员：霍景河，李冠男，张增，尚世锋，李红领，杨新旺，李晓燕，霍一菲，
申请(专利权)人：中国人民解放军装甲兵工程学院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人