当前位置: 首页 > 专利查询>清华大学专利>正文

基于柯西分布哈希方法的高维数据检索方法与系统技术方案

技术编号:17879080 阅读:91 留言:0更新日期:2018-05-06 00:51
本发明专利技术提供一种基于柯西分布哈希方法的高维数据检索方法与系统,检索方法包括:S1、将待检索的数据点对应的高维数据输入训练好的相似检索模型中,获取待检索的数据点对应的哈希编码,其中,相似检索模型为神经网络模型且包括哈希编码模块;S2、将哈希编码输入相似检索模型的倒排索引单元中,获取与哈希编码的汉明距离小于或者等于预设值的桶;S3、对桶中的所有高维数据进行重排序,获取相似高维数据列表,将相似高维数据列表作为检索结果。本发明专利技术先使用哈希方法进行剪枝,然后使用原始特征进行重新排序,即加快了检索的效率,也保证了检索的精度。本发明专利技术能实现快速、准确的检索。

High dimensional data retrieval method and system based on Cauchy distribution hash method

The invention provides a high dimensional data retrieval method and system based on the Cauchy distribution hash method. The retrieval method includes: S1, in the similar retrieval model of high dimensional data input corresponding to the data points to be retrieved, the hash code corresponding to the data points to be retrieved is obtained, in which the similar retrieval model is a neural network model. Type and include hash coding module; S2, in the inverted index unit that input hash code into the similar retrieval model, get a bucket with hash coded Hamming distance less than or equal to the preset value; S3, reorder all high dimensional data in the bucket, get similar high dimensional data list, and take similar high dimensional data list as inspection. The result of the cable. The invention first uses the hashing method to prune, and then restarts with the original features, which speeds up the retrieval efficiency and ensures the accuracy of the retrieval. The invention can realize fast and accurate retrieval.

【技术实现步骤摘要】
基于柯西分布哈希方法的高维数据检索方法与系统
本专利技术涉及大数据分析领域,更具体地,涉及一种基于柯西分布哈希方法的高维数据检索方法与系统。
技术介绍
在互联网时代,随着互联网上多媒体资源的不断增加,如何从大规模数据中快速、有效的查找到相关的数据,无论是在时间上还是空间上都是一个极大的考验。随着互联网的飞速发展,大容量、高维度的图像大数据在搜索引擎和社会网络中越来越普遍,也吸引了越来越多的关注,如何快速有效的进行图像检索分析是一个亟需解决的问题,近似近邻查询正是针对这一问题而产生的,而如何同时保证计算效率和搜索质量是近似近邻查询的关键。针对这一问题,一个非常常用且有效的解决方法是哈希方法,即将高维数据转换为紧凑的二进制码,并为相似的数据生成相似的二进制码。本专利技术重点关注数据相关的哈希方法,经证明,该类方法比数据不相关的哈希方法(如局部敏感哈希)更有效。在过去,人们提出过许多基于汉明距离的哈希方法。这些方法可以分为无监督哈希方法和有监督哈希方法两类。其中无监督方法更为普遍,可以在没有语义标签或数据相关性的情况下进行训练。因此,许多无监督哈希方法被提出来学习紧凑二进制编码以进行高效汉本文档来自技高网...
基于柯西分布哈希方法的高维数据检索方法与系统

【技术保护点】
一种高维数据检索方法,其特征在于,包括:S1、将待检索的数据点对应的高维数据输入训练好的相似检索模型中,获取所述待检索的数据点对应的哈希编码,其中,所述相似检索模型为神经网络模型且包括哈希编码模块;S2、将所述哈希编码输入所述相似检索模型的倒排索引单元中,获取与所述哈希编码的汉明距离小于或者等于预设值的桶;S3、对所述桶中的所有高维数据进行重排序,获取相似高维数据列表,将所述相似高维数据列表作为检索结果。

【技术特征摘要】
1.一种高维数据检索方法,其特征在于,包括:S1、将待检索的数据点对应的高维数据输入训练好的相似检索模型中,获取所述待检索的数据点对应的哈希编码,其中,所述相似检索模型为神经网络模型且包括哈希编码模块;S2、将所述哈希编码输入所述相似检索模型的倒排索引单元中,获取与所述哈希编码的汉明距离小于或者等于预设值的桶;S3、对所述桶中的所有高维数据进行重排序,获取相似高维数据列表,将所述相似高维数据列表作为检索结果。2.根据权利要求1所述的检索方法,其特征在于,步骤S1中所述训练好的相似检索模型通过如下步骤获取:从训练集中获取多个未使用的高维数据;将所述多个未使用的高维数据输入所述哈希模块,获取对哈希编码更匹配的低维特征向量;基于所述低维特征向量,获取所述低维特征向量对应的哈希编码,并根据所述低维特征向量对应的哈希编码计算设定损失函数对所述相似检索模型的哈希编码层的梯度;基于所述对所述相似检索模型的哈希编码层的梯度,对所述相似检索模型进行训练,获取所述训练好的相似检索模型。3.根据权利要求2所述的检索方法,其特征在于,所述设定损失函数为:其中,O为设定损失函数,L为柯西交叉熵损失函数,为定义,Q为柯西量化损失函数,λ为调节柯西交叉熵损失和柯西量化损失权重的参数。4.根据权利要求3所述的检索方法,其特征在于,所述设定损失函数由所述柯西交叉熵损失函数和所述柯西量化损失函数线性组合获取;所述柯西交叉熵损失函数通过下式表示:其中,L为所述柯西交叉熵损失函数,S为相似矩阵,sij为相似矩阵中的i排j列的元素,0≤i≤N,0≤j≤N,N为低维特征向量的总个数,wij为,zi为第i个低维特征向量,zj为第j个低维特征向量,d(zi,zj)为zi,zj之间的归一化欧几里德距离,γ为柯西分布的缩放参数;所述zi,zj之间归一化欧几里德距离通过下式获取:其中,d(zi,zj)为zi,zj之间的归一化欧几里德距离,zi为第i个低维特征向量,zj为第j个低维特征向量,K为哈希编码的位数,||·||为向量的欧几里得范数;所述柯西量化损...

【专利技术属性】
技术研发人员:王建民龙明盛刘斌曹越
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1