一种面向高维大数据集的加权量化哈希检索方法技术

技术编号：20866028 阅读：19 留言：0更新日期：2019-04-17 09:15

本发明专利技术公开了一种面向高维大数据集的加权量化哈希检索方法，特点是首先利用主成份分析算法分别对原始高维数据和给定查询数据降维，然后根据成对保相似性原则并采用松弛后的正交约束条件构造损失函数，通过最小化该损失函数得到最终二进制编码矩阵和最终权重矩阵，根据最终权重矩阵和最终二进制编码矩阵获得加权后的二进制编码矩阵和与给定查询数据对应的二进制编码，再在加权后的二进制编码矩阵中查找与给定查询数据对应的二进制编码的加权海明距离最近的行向量数据，完成对给定查询数据的哈希检索过程；优点是在构造损失函数时采用松弛后的正交约束条件，利用加权海明距离进行哈希检索，能够更好的提高哈希检索方法的检索效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向高维大数据集的加权量化哈希检索方法
本专利技术涉及一种数据检索方法，尤其是一种面向高维大数据集的加权量化哈希检索方法。
技术介绍
最近邻查找一直是计算机学科中的一个基础研究问题。一般情况下，哈希检索技术是能够解决大规模高维数据检索的一种有效方法，基于哈希的相似性查询方法具有良好的查询性能以及存储效率，但是现有的大部分哈希方法都认为哈希编码的各维度权重相同，也就是说，直接利用海明距离来对两数据之间的相似性进行度量；然而在实际情况中，不同的映射方向选择能够导致不同的分类效果，对应到哈希编码上，每一个维度都携带有不同的信息，因此编码不同维度对于数据之间相似性的影响也不同。若采用海明距离作为度量标准，虽然对于数据相似性有一定的判断作用，但不能够充分的说明数据之间的距离远近，有待改进。
技术实现思路
本专利技术所要解决的技术问题是提供一种能够有效提高哈希检索方法的检索效率和准确性的面向高维大数据集的加权量化哈希检索方法。本专利技术解决上述技术问题所采用的技术方案为：一种面向高维大数据集的加权量化哈希检索方法，包括以下步骤：①获取由n个原始高维数据组成的原始高维数据集X并给定查询数据q，X为n×d维的矩阵，q为1×d维的向量，使用主成份分析算法对X进行降维，得到与X对应的低维向量集V，其中，V为n×c维的矩阵，c＜d，vij表示原始高维数据中第i个数据第j维度在V中对应的低维向量元素，1≤i≤n，1≤j≤c，再使用主成份分析算法对q进行降维，得到与q对应的1×c维的低维向量q'；②通过迭代获取最终二进制编码矩阵B″和最终权重矩阵W”，具体过程如下：②-1设定最大迭...

【技术保护点】
1.一种面向高维大数据集的加权量化哈希检索方法，其特征在于包括以下步骤：①获取由n个原始高维数据组成的原始高维数据集X并给定查询数据q，X为n×d维的矩阵，q为1×d维的向量，使用主成份分析算法对X进行降维，得到与X对应的低维向量集V，

【技术特征摘要】
1.一种面向高维大数据集的加权量化哈希检索方法，其特征在于包括以下步骤：①获取由n个原始高维数据组成的原始高维数据集X并给定查询数据q，X为n×d维的矩阵，q为1×d维的向量，使用主成份分析算法对X进行降维，得到与X对应的低维向量集V，其中，V为n×c维的矩阵，c＜d，vij表示原始高维数据中第i个数据第j维度在V中对应的低维向量元素，1≤i≤n，1≤j≤c，再使用主成份分析算法对q进行降维，得到与q对应的1×c维的低维向量q'；②通过迭代获取最终二进制编码矩阵B″和最终权重矩阵W”，具体过程如下：②-1设定最大迭代次数，随机给定初始二进制编码矩阵B，B∈{-1,1}n×c，随机给定初始权重矩阵W，W＝diag(w1，w2，…wj…，wc)，其中，wj表示第j维度的维度权重，diag()表示对角矩阵；②-2根据哈希函数构造原理中的成对保相似性原则构造损失函数，再引入完全正交约束条件，将完全正交约束条件进行松弛化操作，从而构造出损失函数其中，||||F为取矩阵的F-范数符号，中的2为平方符号，BT表示B的转置矩阵，I表示单位矩阵；②-3开始迭代过程，在当前一次迭代过程中，首先保持W不变，对进...

【专利技术属性】
技术研发人员：孙瑶，钱江波，胡伟，任艳多，
申请(专利权)人：宁波大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人