一种基于双路神经网络的保距哈希方法技术

技术编号:13591684 阅读:47 留言:0更新日期:2016-08-26 00:58
本发明专利技术公开了一种基于双路神经网络的保距哈希方法,包括:利用无监督哈希方法对每个训练数据点产生二进制码,并将两两训练数据点及其对应的二进制码构成一个数据对;将数据对输入至双路神经网络中,该双路神经网络的训练目标是保持数据对在不同空间内的线性距离变换关系并保持原始的无监督哈希方法的保真度;通过交替地更新神经网络参数和线性距离变换参数,直到收敛或达到设定的迭代次数后,取双路神经网络的任意一路,即构成了学习得到的新的哈希函数。通过采用本发明专利技术公开的方法,可以显著提高无监督哈希方法的检索性能。

【技术实现步骤摘要】

本专利技术涉及多媒体
,尤其涉及一种基于双路神经网络的保距哈希方法
技术介绍
近似最近邻查找技术是计算机视觉和多媒体应用中的一个基本问题。给定一个查询样本,近似最近邻查找技术可以以很高的概率从一个大的数据集中查找到查询样本的最近邻,并且时间复杂度为线性甚至是常数时间复杂度。近似最近邻查找技术中主要有两类方法,分别是基于树的方法和哈希方法。基于树的方法在高维空间中存在维数灾难问题,而哈希方法由于在高维空间中也表现出良好性能,变得越来越受欢迎。根据是否使用训练数据,现有哈希方法可以分为两类,分别是数据依赖方法和数据独立方法。数据独立方法不使用训练数据,通常对数据应用随机映射来生成二进制码,而且有理论证明:使用数据独立性哈希方法,在汉明空间(Hamming space)中,原始空间的局部邻居结构仍然被保留。这种数据独立性方法的缺点是在大规模应用中,为了获得可以接受的性能,码长要很长,而码长变长会使得召回率(recall)变低。为了提升召回率,这类方法通常会使用多个哈希表,但这又会引发新的问题——内存占用大和计算复杂度高。因此,数据依赖哈希方法开始被研究,通过使用训练数据集来学习得到更加紧致的二进制码。通过将高维数据映射为紧致的二进制码,近似最近邻搜索可以在线性时间复杂度内完成。根据训练数据是否含有标签或分类信息,数据依赖方法又可以进一步被分为三类,分别是有监督方法,半监督方法和无监督方法。有监督哈希方法使用带有标签信息的训练数据进行训练,而半监督方法使用部分带有标签信息的训练数据进行训练。这两类方法通常可以将哈希函数的学习过程形式化为分类问题或最优化问题。数据对或三元组的信息通常被考虑进目标函数去指导哈希函数的学习。尽管在大多数文献中,有监督和半监督哈希方法相比于无监督方法获得了更高的性能,但在很多实际应用中,分类信息或标签数据是很难获得的。这导致无监督哈希方法仍然被广泛研究使用。无监督哈希方法使用不含任何标签信息的分类数据。这类方法通常利用数据分布的信息或好的二进制码的内在属性(例如平衡性和独立性)来保留数据邻居结构,最小量化误差。这些约束本质上属于单个点的约束,并没有直接反映哈希的保距目标。鉴于此,有必要研究一种普适性的方法提高无监督哈希方法的性能。
技术实现思路
本专利技术的目的是提供一种基于双路神经网络的保距哈希方法,可以显著提高无监督哈希方法的检索性能。本专利技术的目的是通过以下技术方案实现的:一种基于双路神经网络的保距哈希方法,包括:利用无监督哈希方法对每个训练数据点产生二进制码,并将两两训练数据点及其对应的二进制码构成一个数据对;将数据对输入至双路神经网络中,该双路神经网络的训练目标是保持数据对在不同空间内的线性距离变换关系并保持原始的无监督哈希方法的保真度;通过交替地更新神经网络参数和线性距离变换参数,直到收敛或达到设定的迭代次数后,取双路神经网络的任意一路,即构成了学习得到的新的哈希函数。进一步的,所述保持数据对在不同空间内的线性距离变换关系的目标函数表达式为:Φ=12Np·N||H-aE-b||F2;]]>其中,N为训练集中训练数据点的数量,Np为数据对的数量;a和b是线性距离变换的参数;E为数据对欧氏距离矩阵,H为数据对二进制码的汉明距离矩阵,E与矩阵E中的元素E(i,j)表示训练数据点xi与xj的欧氏距离;矩阵H中的元素H(i,j)表示练数据点xi与xj对应的二进制码bi与bj的汉明距离;假设每一二进制码为L比特,则二进制码bi与bj的汉明距离表示为:H(i,j)=L-biTbj-(1L×1-bi)T(1L×1-bj).]]>进一步的,所述保持原始的无监督哈希方法的保真度的目标函数表达式为:Ψ=12N||B-U||22]]>其中,B与B与U每一列都是一个训练数据点的一个二进制码;U的每一列由无监督哈希方法生成,B的每一列等于一路神经网络的输出再经二值化处理的结果。进一步的,所述通过交替地更新神经网络参数和线性距离变换参数,直到收敛或达到设定的迭代次数包括:将两个目标函数合并,则有:Φ+λΨ+β||W||2==12Np·N||H-aE-b||F2+λ2N||B-U||22+β||W||2;]]>s.t.B∈{0,1本文档来自技高网
...

【技术保护点】
一种基于双路神经网络的保距哈希方法,其特征在于,包括:利用无监督哈希方法对每个训练数据点产生二进制码,并将两两训练数据点及其对应的二进制码构成一个数据对;将数据对输入至双路神经网络中,该双路神经网络的训练目标是保持数据对在不同空间内的线性距离变换关系并保持原始的无监督哈希方法的保真度;通过交替地更新神经网络参数和线性距离变换参数,直到收敛或达到设定的迭代次数后,取双路神经网络的任意一路,即构成了学习得到的新的哈希函数。

【技术特征摘要】
1.一种基于双路神经网络的保距哈希方法,其特征在于,包括:利用无监督哈希方法对每个训练数据点产生二进制码,并将两两训练数据点及其对应的二进制码构成一个数据对;将数据对输入至双路神经网络中,该双路神经网络的训练目标是保持数据对在不同空间内的线性距离变换关系并保持原始的无监督哈希方法的保真度;通过交替地更新神经网络参数和线性距离变换参数,直到收敛或达到设定的迭代次数后,取双路神经网络的任意一路,即构成了学习得到的新的哈希函数。2.根据权利要求1所述的方法,其特征在于,所述保持数据对在不同空间内的线性距离变换关系的目标函数表达式为:Φ=12Np·N||H-aE-b||F2;]]>其中,N为训练集中训练数据点的数量,Np为数据对的数量;a和b是线性距离变换的参数;E为数据对欧氏距离矩阵,H为数据对二进制码的汉明距离矩阵,E与矩阵E中的元素E(i,j)表示训练数据点xi与xj的欧氏距离;矩阵H中的元素H(i,j)表示练数据点xi与xj...

【专利技术属性】
技术研发人员:周文罡王敏李厚强田奇
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1