一种基于三倍比特量化及非对称距离的最近邻搜索方法技术

技术编号:19481222 阅读:42 留言:0更新日期:2018-11-17 10:40
本发明专利技术提出了一种基于三倍比特量化及非对称距离的最近邻搜索方法,通过提出了三倍比特量化方法,设置中值,将中间数据划分为四类,并映射三倍比特量化的二进制编码值,并进一步计算得加权海明距离。通过采用本发明专利技术所提供的方法可有效提高中间向量的区分能力,提升最近邻的查询精度。

【技术实现步骤摘要】
一种基于三倍比特量化及非对称距离的最近邻搜索方法
本专利技术涉及高维数据计算领域,具体涉及一种基于三倍比特量化及非对称距离的最近邻搜索方法。
技术介绍
最近邻搜索是很多视觉应用,如图像检索、目标识别以及拷贝检测的关键技术之一。最近邻搜索旨在高维大规模数据库中为查询数据找到与之最相似的数据。当在大规模数据库中寻找最近邻时,计算量较大的欧式距离通常被用来计算查询数据与数据库中所有数据之间的距离,这将造成严重的性能瓶颈。对最近邻搜索的性能的影响主要包括两个方面:计算时间和内存占用。而二进制编码正好能解决这两大问题。一方面,海明距离的计算非常高效,只需要极少的机器指令即可完成;另一方面,二进制编码占用的存储空间远远少于浮点型数据。二进制编码的显著优势推动了二进制嵌入技术的发展。目前为止,研究学者已提出了很多成功的二进制嵌入方法。比如,局部敏感哈希(LSH)、谱哈希(SH)、主成分分析嵌入(PCAE)以及迭代量化主成分分析嵌入(PCAE-ITQ)。二进制嵌入技术把原始的浮点型特征转换为二进制编码,并且保证相似的特征能在很高的概率下被映射为相似的二进制编码。下面简单描述二进制嵌入技术的步骤流程:s表示一个在Ω空间下的K维图像特征,hk表示一种二进制嵌入方法,也就是说hk:Ω→{0,1}。一组由K个这样的二进制嵌入方法构成了集合H={hk,k=1...K},这个集合定义了一个多维的二进制嵌入方法h(s)=[h1(s)…hK(s)]′,使得特征s被映射为K比特的二进制编码h:Ω→{0,1}K。然而,原始的浮点型特征并非直接被映射为二进制编码。对很多二进制嵌入方法如LSH,SH,PCAE和PCAE-ITQ来说,二进制嵌入技术可以被分解为以下两个过程:hk(s)=qk[gk(s)]其中,(为中介空间)是投影函数,是量化函数。也就是说,二进制嵌入技术首先把原始的浮点型图像特征s投影为一个多维的浮点型向量g(s)=[gk(s),k=1...K]′,投影后的向量g(s)极好地保持了原始特征s的相似性。然后,投影得到的向量g(s)通过预先选取的阈值τ被量化为二进制编码。但是,在一般情况下,阈值τ往往被设置为0。所以,如果gi(s)>0,mi被映射为1.否则,mi映射为0。也就是说,传统的量化方法只能粗略地把中间向量的每一维数据映射为两类(表示为0或者1),这样的量化方法大大地降低了中间向量的区分能力。同时,最近邻的查询精度不高,有待提高。
技术实现思路
针对现有技术中存在的技术问题,本专利技术提供了一种基于三倍比特量化及非对称距离的最近邻搜索方法。本专利技术的技术方案为:一种基于三倍比特量化及非对称距离的最近邻搜索方法,其特征在于:S01:将数据库中每一个K维度的特征向量x,进行特征映射;其中,K表示所述特征向量x的维度个数;S02:计算每一个维度上的中值nmi和pmi,其中,所述nmi和所述pmi分别表示第i维度的正数数据以及负数数据的中值,即nmi<0<pmi;S03:采用三倍比特量化方法(Threetimesbitquantizationmethod,TBQ),对所述每一个维度进行二进制编码,得到三倍比特量化的二进制编码值。进一步,在本专利技术中,在所述步骤S01中,所述将一个K维度的特征向量x,进行特征映射,具体包括:S012:采用多维投影方法,将所述特征向量x映射为中间向量g(s);S014:对所述中间向量g(s)中的任一维度上的数据进行归一化处理,得到l(x)=[lk(s),k=1,…,K]',其中,lk(s)=N[gk(s)],k=1,…,K;N表示对括号内数据进行归一化处理。进一步,在本专利技术中,在所述步骤S03中,所述三倍比特量化方法,包括以下步骤:S032:根据所述nmi、所述pmi,定义三倍比特量化:其中,TBQi(s)表示所述三倍比特量化的所述二进制编码值。进一步,在本专利技术中,在所述步骤S032之前还具有步骤S031,S031:根据所述nmi、所述pmi以及所述0,将所述中间向量g(x)中的所述任一维度上的数据划分为四类,(-∞,nmi)、(nmi,0)、(0,pmi)、(pmi,+∞)。进一步,在本专利技术中,还具有步骤S04,还具有步骤S04,基于期望的非对称距离算法dE:dE(x,y)=∑kd(gk(x),E[gk(u)|hk(u)=hk(y)])其中,d(·)表示欧氏距离,E表示期望值;dE是未压缩查询向量x与满足条件hk(u)=hk(y)的中间向量gk(u)的期望值的欧氏距离。与现有技术相比,本专利技术的积极效果为:本专利技术提出了一种基于三倍比特量化及非对称距离的最近邻搜索方法,通过提出了三倍比特量化方法,设置中值,将中间数据划分为四类,并映射三倍比特量化的二进制编码值,并进一步计算得加权海明距离。通过采用本专利技术所提供的方法可有效提高中间向量的区分能力,提升最近邻的查询精度。附图说明图1为本专利技术一实施例中三倍比特量化方法示意图;图2为本专利技术一实施例中非对称距离示意图。具体实施方式下面结合附图对本专利技术进行进一步详细描述。下面结合图1进行说明,本专利技术提出的一种基于三倍比特量化及非对称距离的最近邻搜索方法,具体包括:S01:将数据库中每一个K维度的特征向量x,进行特征映射;其中,K表示所述特征向量x的维度个数;进一步,在所述步骤S01中,所述将一个K维度的特征向量x,进行特征映射,具体包括:S012:采用多维投影方法,将所述特征向量x映射为中间向量g(s);S014:对所述中间向量g(s)中的任一维度上的数据进行归一化处理,得到l(x)=[lk(s),k=1,…,K]',其中,lk(s)=N[gk(s)],k=1,…,K;N表示对括号内数据进行归一化处理。S02:计算每一个维度上的中值nmi和pmi,其中,所述nmi和所述pmi分别表示第i维度的正数数据以及负数数据的中值,即nmi<0<pmi;S03:采用三倍比特量化方法(Threetimesbitquantizationmethod,TBQ),对所述每一个维度进行二进制编码,得到三倍比特量化的二进制编码值。进一步,S031:根据所述nmi、所述pmi以及所述0,将所述中间向量g(x)中的所述任一维度上的数据划分为四类,(-∞,nmi)、(nmi,0)、(0,pmi)、(pmi,+∞)。进一步,在所述步骤S03中,所述三倍比特量化方法,包括以下步骤:S032:根据所述nmi、所述pmi,定义三倍比特量化:其中,TBQi(s)表示所述三倍比特量化的所述二进制编码值。S04:基于期望的非对称距离算法dE:dE(x,y)=∑kd(gk(x),E[gk(u)|hk(u)=hk(y)])其中,d(·)表示欧氏距离,E表示期望值;dE是未压缩查询向量x与满足条件hk(u)=hk(y)的中间向量gk(u)的期望值的欧氏距离。采用本专利技术所提出的方法,由于中间向量很好地保持了原始特征的相似性,故若特征y为特征x的最近邻,则gi(x)和gi(y)很有可能被映射为同一类数据。相反,如果x,y在原始空间的距离很远,那么gi(x)和gi(y)更有可能被映射到间隔较大的两类数据中。因此,TBQ可以很自然地保持特征之间的相似性。一方面,假设x,y互为最近邻,并且gi(x)被编码为00本文档来自技高网
...

【技术保护点】
1.一种基于三倍比特量化及非对称距离的最近邻搜索方法,其特征在于:S01:将数据库中每一个K维度的特征向量x,进行特征映射;其中,K表示所述特征向量x的维度个数;S02:计算每一个维度上的中值nmi和pmi,其中,所述nmi和所述pmi分别表示第i维度的正数数据以及负数数据的中值,即nmi<0<pmi;S03:采用三倍比特量化方法(Three times bit quantization method,TBQ),对所述每一个维度进行二进制编码,得到三倍比特量化的二进制编码值。

【技术特征摘要】
1.一种基于三倍比特量化及非对称距离的最近邻搜索方法,其特征在于:S01:将数据库中每一个K维度的特征向量x,进行特征映射;其中,K表示所述特征向量x的维度个数;S02:计算每一个维度上的中值nmi和pmi,其中,所述nmi和所述pmi分别表示第i维度的正数数据以及负数数据的中值,即nmi<0<pmi;S03:采用三倍比特量化方法(Threetimesbitquantizationmethod,TBQ),对所述每一个维度进行二进制编码,得到三倍比特量化的二进制编码值。2.根据权利要求1所述一种基于三倍比特量化及非对称距离的最近邻搜索方法,其特征在于:在所述步骤S01中,所述将一个K维度的特征向量x,进行特征映射,具体包括:S012:采用多维投影方法,将所述特征向量x映射为中间向量g(s);S014:对所述中间向量g(s)中的任一维度上的数据进行归一化处理,得到l(x)=[lk(s),k=1,…,K]',其中,lk(s)=N[gk(s)],k=1,…,K;N表示对括号内数据进行归一化处理。...

【专利技术属性】
技术研发人员:宋馥莉鲁明杜金宇谢洪涛张少岗
申请(专利权)人:河南广播电视大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1