本申请实施例公开了一种数据检索方法、装置及设备,将待查询特征向量与各个特征向量分组进行比较,得到待查询特征向量所属的目标特征向量分组。进而,当目标特征向量分组为图索引分组时,通过目标特征向量分组对应的图索引在目标特征向量分组中检索与待查询特征向量匹配的特征向量。当目标特征向量分组为倒排量化索引分组时,通过目标特征向量分组对应的倒排量化索引在目标特征向量分组中检索与待查询特征向量匹配的特征向量。如此,相比于单纯地采用图索引算法进行检索,本申请的方法在一定程度上能够减少检索算法所占用的内存。相比于单纯地采用倒排量化索引算法进行检索,本申请的方法在一定程度上能够提高检索精度。请的方法在一定程度上能够提高检索精度。请的方法在一定程度上能够提高检索精度。
【技术实现步骤摘要】
一种数据检索方法、装置及设备
[0001]本申请涉及数据处理
,具体涉及一种数据检索方法、装置及设备。
技术介绍
[0002]随着机器学习和神经网络的发展,越来越多的数据以向量的形式存储于数据库中。例如人脸识别中用到的图片特征以及语音识别中用到的语音特征,均可以以向量的形式存储于对应的向量数据库中。
[0003]在获取用户的数据查询请求后,会利用检索算法从向量数据库保存的海量向量数据中检索需要的向量数据。但是,目前数据检索方式无法满足用户需求。
技术实现思路
[0004]有鉴于此,本申请实施例提供一种数据检索方法、装置及设备,在一定程度上减少了数据检索占用的内存并且提高了检索精度。
[0005]为解决上述问题,本申请实施例提供的技术方案如下:
[0006]一种数据检索方法,所述方法包括:
[0007]将待查询特征向量与各个特征向量分组进行比较,得到所述待查询特征向量所属的目标特征向量分组;
[0008]如果所述目标特征向量分组为图索引分组,通过所述目标特征向量分组对应的图索引在所述目标特征向量分组中检索与所述待查询特征向量匹配的特征向量;
[0009]如果所述目标特征向量分组为倒排量化索引分组,通过所述目标特征向量分组对应的倒排量化索引在所述目标特征向量分组中检索与所述待查询特征向量匹配的特征向量。
[0010]一种数据检索装置,所述装置包括:
[0011]第一获取单元,用于将待查询特征向量与各个特征向量分组进行比较,得到所述待查询特征向量所属的目标特征向量分组;
[0012]第一检索单元,用于如果所述目标特征向量分组为图索引分组,通过所述目标特征向量分组对应的图索引在所述目标特征向量分组中检索与所述待查询特征向量匹配的特征向量;
[0013]第二检索单元,用于如果所述目标特征向量分组为倒排量化索引分组,通过所述目标特征向量分组对应的倒排量化索引在所述目标特征向量分组中检索与所述待查询特征向量匹配的特征向量。
[0014]一种电子设备,包括:
[0015]一个或多个处理器;
[0016]存储装置,其上存储有一个或多个程序,
[0017]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的数据检索方法。
[0018]一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述的数据检索方法。
[0019]由此可见,本申请实施例具有如下有益效果:
[0020]本申请实施例提供一种数据检索方法、装置及设备,数据库存储的海量特征向量的分组包括图索引分组以及倒排量化索引分组。当待查询特征向量属于图索引分组时,用对应的图索引在图索引分组中检索和待查询特征向量匹配的特征向量。当待查询特征向量属于倒排量化索引分组时,用对应的倒排量化索引在倒排量化索引分组中检索和待查询特征向量匹配的特征向量。如此,相比于单纯地采用图索引算法进行向量检索,本申请实施例的方法在一定程度上能够减少检索算法所占用的内存。相比于单纯地采用倒排量化索引算法进行向量检索,本申请实施例的方法在一定程度上能够提高检索精度。
附图说明
[0021]图1为本申请实施例提供的一种示例性应用场景的框架示意图;
[0022]图2为本申请实施例提供的一种数据检索方法的流程图;
[0023]图3为本申请实施例提供的一种数据检索装置的结构示意图;
[0024]图4为本申请实施例提供的一种电子设备的基本结构的示意图。
具体实施方式
[0025]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
[0026]为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的
技术介绍
进行说明。
[0027]随着机器学习和神经网络的发展,越来越多的数据以向量的形式存储于数据库中。例如人脸识别中用到的图片数据以及语音识别中用到的语音数据,均以向量的形式存储于对应的向量数据库中。
[0028]在获取用户的数据查询请求后,会利用检索算法从向量数据库保存的海量向量数据中检索需要的向量数据。例如,在进行人脸识别时,会先采集用户的人脸图像,将采集的人脸图像处理为待查询特征向量。再在存储有海量人脸图像对应的特征向量的向量数据库中,检索和待查询特征向量相匹配的特征向量。可以理解的是,检索到的和查询特征向量相匹配的特征向量为需要的向量数据。专利技术人经研究发现,目前存在的检索算法,例如,图索引算法和倒排量化索引算法等。其中,图索引算法需要利用图索引进行检索,图索引的存储需要占用较大内存。另外,倒排量化索引算法存在检索精度不高的问题。可见,图索引算法和倒排量化索引算法均不能满足用户的需求。
[0029]基于此,本申请实施例提供一种数据检索方法、装置及设备,先将待查询特征向量与各个特征向量分组进行比较,得到待查询特征向量所属的目标特征向量分组。进而,当目标特征向量分组为图索引分组时,通过目标特征向量分组对应的图索引在目标特征向量分组中检索与待查询特征向量匹配的特征向量。当目标特征向量分组为倒排量化索引分组时,通过目标特征向量分组对应的倒排量化索引在目标特征向量分组中检索与待查询特征向量匹配的特征向量。在本申请实施例中,数据库存储的海量特征向量的分组包括图索引
分组以及倒排量化索引分组。当待查询特征向量属于图索引分组时,用对应的图索引在图索引分组中检索和待查询特征向量匹配的特征向量。当待查询特征向量属于倒排量化索引分组时,用对应的倒排量化索引在倒排量化索引分组中检索和待查询特征向量匹配的特征向量。如此,相比于单纯地采用图索引算法进行检索,本申请实施例的方法在一定程度上能够减少检索算法所占用的内存。相比于单纯地采用倒排量化索引算法进行检索,本申请实施例的方法在一定程度上能够提高检索精度。
[0030]为了便于理解本申请实施例提供的数据检索方法,下面结合图1所示的场景示例进行说明。参见图1所示,该图为本申请实施例提供的示例性应用场景的框架示意图。
[0031]在实际应用中,数据库存储的海量特征向量的分组包括图索引分组以及倒排量化索引分组。基于此,将待查询特征向量与各个特征向量分组进行比较,得到待查询特征向量所属的目标特征向量分组。在一个或多个实施例中,待查询特征向量为图像待查询特征向量、人脸待查询特征向量或信息待查询特征向量。其中,信息待查询特征向量例如为商品信息待查询特征向量、广告信息待查询特征向量、多媒体信息(如音视频)待查询特征向量或用户信息待查询特征向量等。
[0032]若目标特征向量分组为图索引分组,则通过图索引算法来检索和待查询特征向量匹配的特征向量。具体地,通过目标特征向量分组对应的图索引在目标特征向量分组中检索与待查询特征向量匹配的特征向量。
[0033]若目标特征向量分组为倒排量化索引分组,则通过倒排量化索引算法来检索和待查询特征向量匹配的特征向量本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据检索方法,其特征在于,所述方法包括:将待查询特征向量与各个特征向量分组进行比较,得到所述待查询特征向量所属的目标特征向量分组;如果所述目标特征向量分组为图索引分组,通过所述目标特征向量分组对应的图索引在所述目标特征向量分组中检索与所述待查询特征向量匹配的特征向量;如果所述目标特征向量分组为倒排量化索引分组,通过所述目标特征向量分组对应的倒排量化索引在所述目标特征向量分组中检索与所述待查询特征向量匹配的特征向量。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对第一特征向量进行聚类,得到多个特征向量分组,每个所述特征向量分组包括至少一个所述第一特征向量;按照所述特征向量分组包括的第一特征向量的数量,将第一特征向量的数量排序在前的预设数量个特征向量分组确定为图索引分组,将其他特征向量分组确定为倒排量化索引分组。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取第二特征向量,将所述第二特征向量与各个所述特征向量分组进行比较,得到所述第二特征向量所属的特征向量分组;将所述第二特征向量添加到所述第二特征向量所属的特征向量分组中。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:利用目标图索引分组中的特征向量建立所述目标图索引分组对应的图索引;所述目标图索引分组中的特征向量包括所述目标图索引分组中的第一特征向量以及所述目标图索引分组中的第二特征向量;所述目标图索引分组分别为所述图索引分组中的每一个;利用目标倒排量化索引分组中的特征向量建立所述目标倒排量化索引分组对应的倒排量化索引;所述目标倒排量化索引分组中的特征向量包括所述目标倒排量化索引分组中的第一特征向量以及所述目标倒排量化索引分组中的第二特征向量;所述目标倒排量化索引分组分别为所述倒排量化索引分组中的每一个。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:利用目标图索引分组中的特征向量建立所述目标图索引分组对应的图索引;所述目标图索引分组中的特征向量包括所述目标图索引分组中的第一特征向量;所述目标图索引分组分别为所述图索引分组中的每一个;利用目标倒排量化索引分组中的特征向量建立所述目标倒排量化索引分组对应的倒排量化索引;所述目标倒排量化索引分组中的特征向量包括所述目标倒排量化索引分组中的第一特征向量;所述目标倒排量化索引分组分别为所述倒排量化索引分组中的每一个。6.根据权利要求4或5所述的方法,其特征在于,所述利用目标倒排量化索引分组中的特征向量建...
【专利技术属性】
技术研发人员:白戈,罗建勋,王长虎,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。