一种基于双路神经网络的保距哈希方法技术

技术编号：13591684 阅读：48 留言：0更新日期：2016-08-26 00:58

本发明专利技术公开了一种基于双路神经网络的保距哈希方法，包括：利用无监督哈希方法对每个训练数据点产生二进制码，并将两两训练数据点及其对应的二进制码构成一个数据对；将数据对输入至双路神经网络中，该双路神经网络的训练目标是保持数据对在不同空间内的线性距离变换关系并保持原始的无监督哈希方法的保真度；通过交替地更新神经网络参数和线性距离变换参数，直到收敛或达到设定的迭代次数后，取双路神经网络的任意一路，即构成了学习得到的新的哈希函数。通过采用本发明专利技术公开的方法，可以显著提高无监督哈希方法的检索性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多媒体
，尤其涉及一种基于双路神经网络的保距哈希方法。
技术介绍
近似最近邻查找技术是计算机视觉和多媒体应用中的一个基本问题。给定一个查询样本，近似最近邻查找技术可以以很高的概率从一个大的数据集中查找到查询样本的最近邻，并且时间复杂度为线性甚至是常数时间复杂度。近似最近邻查找技术中主要有两类方法，分别是基于树的方法和哈希方法。基于树的方法在高维空间中存在维数灾难问题，而哈希方法由于在高维空间中也表现出良好性能，变得越来越受欢迎。根据是否使用训练数据，现有哈希方法可以分为两类，分别是数据依赖方法和数据独立方法。数据独立方法不使用训练数据，通常对数据应用随机映射来生成二进制码，而且有理论证明：使用数据独立性哈希方法，在汉明空间(Hamming space)中，原始空间的局部邻居结构仍然被保留。这种数据独立性方法的缺点是在大规模应用中，为了获得可以接受的性能，码长要很长，而码长变长会使得召回率(recall)变低。为了提升召回率，这类方法通常会使用多个哈希表，但这又会引发新的问题——内存占用大和计算复杂度高。因此，数据依赖哈希方法开始被研究，通过使用训练数据集来学习得到更加紧致的二进制码。通过将高维数据映射为紧致的二进制码，近似最近邻搜索可以在线性时间复杂度内完成。根据训练数据是否含有标签或分类信息，数据依赖方法又可以进一步被分为三类，分别是有监督方法，半监督方法和无监督方法。有监督哈希方法使用带有标签信息的训练数据进行训练，而半监督方法使用部分带有标签信息的训练数据进行训练。这两类方法通常可以将哈希函数的学习过程形式化为分类问题或最优化问...

【技术保护点】
一种基于双路神经网络的保距哈希方法，其特征在于，包括：利用无监督哈希方法对每个训练数据点产生二进制码，并将两两训练数据点及其对应的二进制码构成一个数据对；将数据对输入至双路神经网络中，该双路神经网络的训练目标是保持数据对在不同空间内的线性距离变换关系并保持原始的无监督哈希方法的保真度；通过交替地更新神经网络参数和线性距离变换参数，直到收敛或达到设定的迭代次数后，取双路神经网络的任意一路，即构成了学习得到的新的哈希函数。

【技术特征摘要】
1.一种基于双路神经网络的保距哈希方法，其特征在于，包括：利用无监督哈希方法对每个训练数据点产生二进制码，并将两两训练数据点及其对应的二进制码构成一个数据对；将数据对输入至双路神经网络中，该双路神经网络的训练目标是保持数据对在不同空间内的线性距离变换关系并保持原始的无监督哈希方法的保真度；通过交替地更新神经网络参数和线性距离变换参数，直到收敛或达到设定的迭代次数后，取双路神经网络的任意一路，即构成了学习得到的新的哈希函数。2.根据权利要求1所述的方法，其特征在于，所述保持数据对在不同空间内的线性距离变换关系的目标函数表达式为：Φ=12Np·N||H-aE-b||F2;]]>其中，N为训练集中训练数据点的数量，Np为数据对的数量；a和b是线性距离变换的参数；E为数据对欧氏距离矩阵，H为数据对二进制码的汉明距离矩阵，E与矩阵E中的元素E(i,j)表示训练数据点xi与xj的欧氏距离；矩阵H中的元素H(i,j)表示练数据点xi与xj...

【专利技术属性】
技术研发人员：周文罡，王敏，李厚强，田奇，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人