目标数据查找方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33205138 阅读:10 留言:0更新日期:2022-04-24 00:49
本发明专利技术实施例公开了一种目标数据查找方法、装置、计算机设备及存储介质,其中方法包括构建数据特征库的多层图结构,多层图结构中各层节点数量由底层到顶层呈指数衰减概率分布,底层中包含数据特征库所对应的所有节点;从顶层随机选取一个节点作为查询目标节点的入口节点;从顶层的入口节点开始,查询出每一层离目标节点最近的一个节点作为下一层的查询入口节点,直至底层;在底层中利用上一层的查询入口节点查询出距离目标节点接近的邻居节点。本发明专利技术通过上一层查询到的距离目标节点最近的节点作为下一层的迭代的起点,直至底层,使得查询时每一层都可以过滤掉很大一部分与目标节点距离较远的节点,从而节省了查询和运算时间,提高了查询的效率。提高了查询的效率。提高了查询的效率。

【技术实现步骤摘要】
目标数据查找方法、装置、计算机设备及存储介质


[0001]本专利技术涉及数据处理技术,更具体地说是一种目标数据查找方法、装置、计算机设备及存储介质。

技术介绍

[0002]数据量激增的时代,在大量的数据中做高效率高精度的相似性查找一直都是难以解决的问题,如何管理好这些数据也也面临着许多问题。
[0003]目前,对于十万级别或者更大级别的数据查找的方式有以下几种:
[0004]最朴素的办法是将特征顺序存储,这样的构建算法的时间复杂度低,不需要占用额外存储空间。存在的问题就是查找效率低,每一次查询需要遍历所有的数据,在频繁查询、数据量较大的场景下效率急剧下降。
[0005]基于树结构的最近邻检索算法构建速度以及查找效率都有良好的效果,但对于高维度的数据,其效率仍然急剧下降。目前基于神经网络的深度学习方法所处理的特征维度普遍偏高,因此这种方法也不可使用。
[0006]基于哈希函数的最近邻检索算法可以避免上述的问题,但这种方法的性能很大程度上取决于哈希函数的质量,对于多种不同类别的数据使用同一个哈希函数可能在性能上有较大差异,因此不具有普适性。
[0007]基于图论的近邻检索技术是近年来较为流行的方法,通过牺牲部分精度来换取检索速度,解决了高维度数据的快速检索问题,但仍然存在构建图开销较大的问题。

技术实现思路

[0008]本专利技术的目的在于克服现有技术的不足,提供一种目标数据查找方法、装置、计算机设备及存储介质。
[0009]为实现上述目的,本专利技术采用以下技术方案:
[0010]第一方面,目标数据查找方法,所述方法包括:
[0011]构建数据特征库的多层图结构,所述多层图结构中各层节点数量由底层到顶层呈指数衰减概率分布,底层中包含数据特征库所对应的所有节点;
[0012]从顶层随机选取一个节点作为查询目标节点的入口节点;
[0013]从顶层的入口节点开始,查询出每一层离目标节点最近的一个节点作为下一层的查询入口节点,直至底层;
[0014]在底层中利用上一层的查询入口节点查询出距离目标节点接近的邻居节点。
[0015]其进一步技术方案为:所述的从顶层的入口节点开始,查询出每一层离目标节点最近的一个节点作为下一层的查询入口节点,直至底层,包括:
[0016]将入口节点及与其对应的邻居节点添加至候选列表和记录在已遍历列表中,并记录入口节点与目标节点的距离;
[0017]计算候选列表中入口节点的各邻居节点与目标节点的距离;
[0018]将候选列表中入口节点的各邻居节点与目标节点的距离小于入口节点与目标节点的距离的节点添加至结果列表中;
[0019]选取入口节点的邻居节点中距离目标节点最近的节点作为接下来查询的过渡节点;
[0020]遍历过渡节点的邻居节点,将其中没有被遍历过的节点加入至候选列表,并记录在已遍历列表中;
[0021]当候选列表中距离目标节点最近的节点的距离大于结果列表中距离目标节点最远的节点的距离,则终止查询。
[0022]其进一步技术方案为:所述的将候选列表中入口节点的各邻居节点与目标节点的距离小于入口节点与目标节点的距离的节点添加至结果列表中,如果结果列表中存储的节点数量达到上限则删除其中距离目标最远的节点。
[0023]其进一步技术方案为:所述的遍历过渡节点的邻居节点,将其中没有被遍历过的节点加入至候选列表,并记录在已遍历列表中,如果节点加入至候选列表时超过了候选列表的存储上限且当前加入的节点距离目标节点更近,则采用当前加入的节点替换候选列表中距离目标节点最远的节点。
[0024]第二方面,目标数据查找装置,所述装置包括构建单元、选取单元、第一查询单元和第二查询单元;
[0025]所述构建单元,用于构建数据特征库的多层图结构,所述多层图结构中各层节点数量由底层到顶层呈指数衰减概率分布,底层中包含数据特征库所对应的所有节点;
[0026]所述选取单元,用于从顶层随机选取一个节点作为查询目标节点的入口节点;
[0027]所述第一查询单元,用于从顶层的入口节点开始,查询出每一层离目标节点最近的一个节点作为下一层的查询入口节点,直至底层;
[0028]所述第二查询单元,用于在底层中利用上一层的查询入口节点查询出距离目标节点接近的邻居节点。
[0029]其进一步技术方案为:所述第一查询单元包括第一添加模块、计算模块、第二添加模块、选取模块、遍历模块以及终止模块;
[0030]所述第一添加模块,用于将入口节点及与其对应的邻居节点添加至候选列表和记录在已遍历列表中,并记录入口节点与目标节点的距离;
[0031]所述计算模块,用于计算候选列表中入口节点的各邻居节点与目标节点的距离;
[0032]所述第二添加模块,用于将候选列表中入口节点的各邻居节点与目标节点的距离小于入口节点与目标节点的距离的节点添加至结果列表中;
[0033]所述选取模块,用于选取入口节点的邻居节点中距离目标节点最近的节点作为接下来查询的过渡节点;
[0034]所述遍历模块,用于遍历过渡节点的邻居节点,将其中没有被遍历过的节点加入至候选列表,并记录在已遍历列表中;
[0035]终止模块,用于当候选列表中距离目标节点最近的节点的距离大于结果列表中距离目标节点最远的节点的距离,则终止查询。
[0036]其进一步技术方案为:所述的第二添加模块,如果结果列表中存储的节点数量达到上限则删除其中距离目标最远的节点。
[0037]其进一步技术方案为:所述的遍历模块,如果节点加入至候选列表时超过了候选列表的存储上限且当前加入的节点距离目标节点更近,则采用当前加入的节点替换候选列表中距离目标节点最远的节点。
[0038]第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的方法步骤。
[0039]第四方面,一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如上述的方法步骤。
[0040]本专利技术与现有技术相比的有益效果是:本专利技术通过上一层查询到的距离目标节点最近的节点作为下一层的迭代的起点,直至底层,使得查询时每一层都可以过滤掉很大一部分与目标节点距离较远的节点,从而节省了查询和运算时间,提高了查询的效率。
[0041]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术技术手段,可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征及优点能够更明显易懂,以下特举较佳实施例,详细说明如下。
附图说明
[0042]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.目标数据查找方法,其特征在于,所述方法包括:构建数据特征库的多层图结构,所述多层图结构中各层节点数量由底层到顶层呈指数衰减概率分布,底层中包含数据特征库所对应的所有节点;从顶层随机选取一个节点作为查询目标节点的入口节点;从顶层的入口节点开始,查询出每一层离目标节点最近的一个节点作为下一层的查询入口节点,直至底层;在底层中利用上一层的查询入口节点查询出距离目标节点接近的邻居节点。2.根据权利要求1所述的目标数据查找方法,其特征在于,所述的从顶层的入口节点开始,查询出每一层离目标节点最近的一个节点作为下一层的查询入口节点,直至底层,包括:将入口节点及与其对应的邻居节点添加至候选列表和记录在已遍历列表中,并记录入口节点与目标节点的距离;计算候选列表中入口节点的各邻居节点与目标节点的距离;将候选列表中入口节点的各邻居节点与目标节点的距离小于入口节点与目标节点的距离的节点添加至结果列表中;选取入口节点的邻居节点中距离目标节点最近的节点作为接下来查询的过渡节点;遍历过渡节点的邻居节点,将其中没有被遍历过的节点加入至候选列表,并记录在已遍历列表中;当候选列表中距离目标节点最近的节点的距离大于结果列表中距离目标节点最远的节点的距离,则终止查询。3.根据权利要求2所述的目标数据查找方法,其特征在于,所述的将候选列表中入口节点的各邻居节点与目标节点的距离小于入口节点与目标节点的距离的节点添加至结果列表中,如果结果列表中存储的节点数量达到上限则删除其中距离目标最远的节点。4.根据权利要求2所述的目标数据查找方法,其特征在于,所述的遍历过渡节点的邻居节点,将其中没有被遍历过的节点加入至候选列表,并记录在已遍历列表中,如果节点加入至候选列表时超过了候选列表的存储上限且当前加入的节点距离目标节点更近,则采用当前加入的节点替换候选列表中距离目标节点最远的节点。5.目标数据查找装置,其特征在于,所述装置包括构建单元、选取单元、第一查询单元和第二查询单元;所述构建单元,用于构建数据特征库的多层图结构,所述多层图结构中各层节点数量由底层到顶层呈指数衰减概率分布,底层中包含数据特征库所对应的...

【专利技术属性】
技术研发人员:陈志宇龙晓华
申请(专利权)人:深圳市同为数码科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1