一种最近邻搜索方法、装置、终端和存储介质制造方法及图纸

技术编号:31717517 阅读:17 留言:0更新日期:2022-01-01 11:25
本申请适用于计算机技术领域,提供了一种最近邻搜索方法、装置、终端和存储介质。其中,上述最近邻搜索方法具体包括:将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;利用所述参考低维特征建立低维近邻图;获取目标对象的目标特征;基于所述低维近邻图与所述目标特征进行最近邻搜索,得到与所述目标对象距离最近的参考对象。本申请的实施例能够在保障最近邻搜索精度的同时,提高近邻图的构建效率。率。率。

【技术实现步骤摘要】
一种最近邻搜索方法、装置、终端和存储介质


[0001]本申请属于计算机
,尤其涉及一种最近邻搜索方法、装置、终端和存储介质。

技术介绍

[0002]近似最近邻搜索算法的主要目标是在确定的相似度量准则下,从包含大量数据特征向量的数据库中检索出与给定查询对象最为相似的多条数据特征向量。近似最近邻搜索是信息检索的基础,在各种搜索引擎及推荐系统中有着非常广泛的应用。如何在硬件成本有限的条件下,快速准确的实现近似最近邻搜索一直是信息检索领域的一个研究热点。
[0003]基于索引图的近似最近邻搜索算法,是在预构的近邻图(relative neighbor graph,RNG)中沿着边界线迭代逼近查询对象,这种算法只需要计算查询对象的特征向量与逼近的路线上数据特征向量之间的相似度,能够显著提升了检索速度。该类方法是近年来应用最为广泛地近似最近邻搜索算法,已经在很多实用场景落地应用。
[0004]但是,为了保障可靠性,该类方法需要预先构建高精度的RNG,在处理具有数亿特征向量数据的数据库时,三十多个线程构建RNG也需要花费几天甚至几周时间。构建RNG花费时间过长的问题严重限制了基于索引图的近似最近邻搜索算法的适用范围。

技术实现思路

[0005]本申请实施例提供一种最近邻搜索方法、装置、终端和存储介质,可以在保障最近邻搜索精度的同时,提高RNG的构建效率。
[0006]本申请实施例第一方面提供一种最近邻搜索方法,包括:
[0007]将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;
[0008]利用所述参考低维特征建立低维近邻图;
[0009]获取目标对象的目标特征;
[0010]基于所述低维近邻图与所述目标特征进行最近邻搜索,得到与所述目标对象距离最近的参考对象。
[0011]在本申请的一些实施方式中,所述高维近邻关系为多个所述样本对象中每两个样本对象分别关联的样本高维特征之间的高维欧氏距离,所述低维近邻关系为多个所述样本对象中每两个样本对象分别关联的样本低维特征之间的低维欧氏距离;所述特征压缩网络的损失函数为基于所述高维欧氏距离和与所述高维欧氏距离对应的低维欧氏距离之间的误差值,以及与所述高维欧氏距离关联的权重值得到的函数,其中,所述权重值的取值和与其关联的高维欧氏距离的大小相关。
[0012]在本申请的一些实施方式中,所述特征压缩网络包括压缩模块、投影模块以及全局优化模块,所述压缩模块包括第一线性映射模块、第二线性映射模块以及特征压缩模块;
所述将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,包括:将所述参考高维特征输入至所述特征压缩模块、所述第一线性映射模块和所述投影模块,得到由所述特征压缩模块输出的第一特征、由所述第一线性映射模块输出的第二特征,以及由所述投影模块输出的至少一个第三特征,其中,所述第一特征、所述第二特征和每个所述第三特征的维度与所述参考低维特征的维度相同;将所述第一特征、所述第二特征和所述至少一个第三特征输入至所述全局优化模块,得到由所述全局优化模块输出的第四特征和至少一个第五特征;将所述第四特征和所述至少一个第五特征输入至所述压缩模块,得到由所述压缩模块输出的所述参考低维特征。
[0013]在本申请的一些实施方式中,所述全局优化模块包括至少一个编码器;所述将所述第一特征、所述第二特征和所述至少一个第三特征输入至所述全局优化模块,得到由所述全局优化模块输出的第四特征和至少一个第五特征,包括:将所述第一特征和所述至少一个第三特征组成第一向量,并将所述第一向量输入所述至少一个编码器中的第一个编码器,得到由所述第一个编码器基于多注意力头机制和线性映射层输出的第二向量,其中,所述第二向量包括与所述第一特征对应的第六特征,以及与所述至少一个第三特征一一对应的至少一个第七特征;将所述第二向量中所述第一特征对应的第六特征与所述第二特征相加,得到第八特征;将所述第二向量中的所述第六特征替换为所述第八特征,得到第三向量;将所述第三向量输入至所述至少一个编码器中的第二个编码器,以此类推,直至得到由所述至少一个编码器的最后一个编码器输出的目标向量,所述目标向量包括所述第四特征和所述至少一个第五特征。
[0014]在本申请的一些实施方式中,所述多注意力头机制的输出值的计算过程包括:基于所述第一向量确定所述多注意力头机制的第一输入值、第二输入值和第三输入值;对所述第一输入值、所述第二输入值和所述第三输入值分别进行映射处理,得到所述第一输入值对应的第一映射值、所述第二输入值对应的第二映射值和所述第三输入值对应的第三映射值,其中所述第三映射值的维度低于所述第一映射值的维度,且低于所述第二映射值的维度;利用所述第一降维值和所述第二降维值,计算所述第三映射值的合并参数;利用所述第三映射值和所述合并参数计算所述多注意力头机制的输出值。
[0015]在本申请的一些实施方式中,所述基于所述低维近邻图与所述目标特征进行最近邻搜索,得到与所述目标对象距离最近的参考对象,包括:将所述低维近邻图的每个参考低维特征替换为与其对应的参考高维特征,得到所述低维近邻图对应的高维近邻图;基于所述高维近邻图与所述目标特征进行最近邻搜索,得到与所述目标对象距离最近的参考对象。
[0016]本申请实施例第二方面提供的一种最近邻搜索装置,包括:
[0017]特征压缩单元,用于将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;
[0018]近邻图构建单元,用于利用所述参考低维特征建立低维近邻图;
[0019]特征获取单元,用于获取目标对象的目标特征;
[0020]最近邻搜索单元,用于基于所述低维近邻图与所述目标特征进行最近邻搜索,得到与所述目标对象距离最近的参考对象。
[0021]本申请实施例第三方面提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0022]本申请实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0023]本申请实施例第五方面提供了一种计算机程序产品,当计算机程序产品在终端上运行时,使得终端执行时实现方法的步骤。
[0024]本申请的实施方式中,通过将参考对象的参考高维特征输入特征压缩网络中,得到由特征压缩网络输出的参考低维特征,并利用参考低维特征建立低维近邻图,然后,获取目标对象的目标特征,并基于低维近邻图与目标特征进行最近邻搜索,得到与目标对象距离最近的参考对象,一方面,由于特征压缩网络的损失函数为基于样本对象的高维近邻关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种最近邻搜索方法,其特征在于,包括:将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;利用所述参考低维特征建立低维近邻图;获取目标对象的目标特征;基于所述低维近邻图与所述目标特征进行最近邻搜索,得到与所述目标对象距离最近的参考对象。2.如权利要求1所述的最近邻搜索方法,其特征在于,所述高维近邻关系为多个所述样本对象中每两个样本对象分别关联的样本高维特征之间的高维欧氏距离,所述低维近邻关系为多个所述样本对象中每两个样本对象分别关联的样本低维特征之间的低维欧氏距离;所述特征压缩网络的损失函数为基于所述高维欧氏距离和与所述高维欧氏距离对应的低维欧氏距离之间的误差值,以及与所述高维欧氏距离关联的权重值得到的函数,其中,所述权重值的取值和与其关联的高维欧氏距离的大小相关。3.如权利要求2所述的最近邻搜索方法,其特征在于,所述损失函数的损失值的计算过程,包括:计算所述高维欧氏距离和与所述高维欧氏距离对应的低维欧氏距离之间的误差值;计算与所述高维欧氏距离关联的权重值,并利用每个所述权重值对每个所述误差值进行加权相加,得到累加值;将所述累加值和所述样本对象的总数量的平方值相除,得到所述损失函数的损失值。4.如权利要求2或3所述的最近邻搜索方法,其特征在于,所述权重值的计算过程,包括:获取第一超参数和第二超参数,其中,所述第一超参数大于所述第二超参数;计算各个所述高维欧氏距离的平均值;计算所述高维欧氏距离和所述平均值之商的自然对数值的相反数;确定所述相反数和所述第二超参数之间的最大值,并将所述第一超参数和所述最大值之间的最小值作为与所述高维欧氏距离关联的权重值。5.如权利要求1至3任意一项所述的最近邻搜索方法,其特征在于,所述特征压缩网络包括压缩模块、投影模块以及全局优化模块,所述压缩模块包括第一线性映射模块、第二线性映射模块以及特征压缩模块;所述将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,包括:将所述参考高维特征输入至所述特征压缩模块、所述第一线性映射模块和所述投影模块,得到由所述特征压缩模块输出的第一特征、由所述第一线性映射模块输出的第二特征,以及由所述投影模块输出的至少一个第三特征,其中,所述第一特征、所述第二特征和每个所述第三特征的维度与所述参考低维特征的维度相同;将所述第一特征、所述第二特征和所述至少一个第三特征输入至所述全局优化模块,得到由所述全局优化模块输出的第四特征和至少一个第五特征;将所述第四特征和所述至少一个第五特征输入至所述压缩模块,得到由所述压缩模块
输出的所述参考低维特征。6.如权利要求5所述的最近邻搜索方法,其特征在于,所述全局优化模块包括至少一个编码器;所述将所述第一...

【专利技术属性】
技术研发人员:张号逵胡文泽王孝宇
申请(专利权)人:深圳云天励飞技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1