一种数据检索方法、装置、存储介质及电子装置制造方法及图纸

技术编号:34512603 阅读:21 留言:0更新日期:2022-08-13 20:58
本发明专利技术实施例提供了一种数据检索方法、装置、存储介质及电子装置,通过获取目标数据,所述目标数据用于在目标数据库中检索,其中所述目标数据库包括第一级目标数据库和第二级目标数据库,采用预设算法,对所述目标数据进行特征化处理,得到目标特征数据组,其中所述目标特征数据组包括第一目标特征数据和第二目标特征数据,基于所述第一目标特征数据,在所述第一级目标数据库中执行第一检索操作,得到第一检索结果,基于所述第二目标特征数据和所述第一检索结果,在所述第二级目标数据库中执行第二检索操作,得到第二检索结果,提高了检索的精度和速度,并且降低了数据存储成本。并且降低了数据存储成本。并且降低了数据存储成本。

【技术实现步骤摘要】
一种数据检索方法、装置、存储介质及电子装置


[0001]本专利技术实施例涉及数据处理领域,具体而言,涉及一种数据检索方法、装置、存储介质及电子装置。

技术介绍

[0002]在高度信息化的当今时代,视频平台、社交网络、网购平台等媒介每天都会产生海量的视频、图像等信息,其规模甚至可以数百亿计。视频品台会根据用户观看习惯推荐相似的视频,社交网络会根据用户的关系网推荐可能认识的用户,网购用户希望根据图片来搜索类似的商品等。在这些应用场景中,都涉及到从海量的数据中检索出相似的数据,由此引出相关的两个基础问题:如何对数据进行结构化描述以及从海量底库数据中检索相似的结果。
[0003]近些年随着深度学习的发展,如何对互联网产生的数据进行结构化描述,已经有了广泛的研究,使用大量数据训练深度模型进行图像到高维特征的空间嵌入(embedding),使用高维空间特征向量表示图片,这也成了目前图像检索技术的通用做法,亦即将图片输入深度模型,得到一个有区分性固定维度的特征向量作为图片的结构化描述。
[0004]其中向量检索是以向量数据描述为基础,在一个给定的向量数据集中,按照某种度量方式,检索出与查询向量相近的K个向量(K

Nearest Neighbor,KNN),通常是以先计算相似度,然后以topK排序算法获取。但由于KNN计算量过大,通常会使用近似最近邻(Approximate Nearest Neighbor,ANN)的方法,但基于ANN的方法都会对检索精度造成损失。
[0005]以512维度向量X为例,以浮点数存储时,将占用2KB的存储空间,存储效率约52.2万条/GB空间,对于超过亿级的数据集,将无法使用全内存系统,这时候就需要数据压缩技术来减少存储开销。以往的方法,如Product Quantization(PQ),也是基于ANN与聚类算法的思想,完成对数据的压缩,然而在高压缩率下数据精度会有明显损失。
[0006]由上述内容可知,一方面ANN的方法会造成检索精度的损失,另一方面以浮点数存储的向量数据会占用大量的存储空间,限制了检索系统的容量,并且现有的压缩方法会使得数据在高压缩率下数据精度会有明显损失,从而影响检索的精度。
[0007]因此,如何在不损坏数据的精度的前提下有效提高数据的存储量,并有效提高检索的精度是现在主要需要解决的问题。

技术实现思路

[0008]本专利技术的主要优势在于提供一种数据检索方法、装置、存储介质及电子装置,通过在所述目标数据库中,执行所述第一检索操作和所述第二检索操作,提高了检索的精度。
[0009]本专利技术另一优势在于提供一种数据检索方法、装置、存储介质及电子装置,通过对所述目标数据和所述目标数据库分别进行两级量化操作,即Bit量化操作和Int8量化操作,在保持数据精度的同时提高了数据存储量。
[0010]本专利技术另一优势在于提供一种数据检索方法、装置、存储介质及电子装置,通过对所述目标数据和所述目标数据库分别进行两级量化操作,即Bit量化操作和Int8量化操作,综合了两种量化方式的优点,有效提升了检索速度。
[0011]根据本专利技术一实施例,提高一种数据检索方法,包括:获取目标数据,所述目标数据用于在目标数据库中检索,其中所述目标数据库包括第一级目标数据库和第二级目标数据库;采用预设算法,对所述目标数据进行特征化处理,得到目标特征数据组,其中所述目标特征数据组包括第一目标特征数据和第二目标特征数据;基于所述第一目标特征数据,在所述第一级目标数据库中执行第一检索操作,得到第一检索结果;基于所述第二目标特征数据和所述第一检索结果,在所述第二级目标数据库中执行第二检索操作,得到第二检索结果。
[0012]根据本专利技术一示例性实施例,所述第一级目标数据库为对原始数据库进行Bit量化后的数据库,所述第二级目标数据库为对所述原始数据库进行Int8量化后的数据库。
[0013]根据本专利技术一示例性实施例,所述预设算法包括第一算法和第二算法;所述采用预设算法,对所述目标数据进行特征化处理,得到目标特征数据组,其中所述目标特征数据组包括第一目标特征数据和第二目标特征数据,包括:采用所述第一算法对所述目标数据进行第一特征化处理,得到所述第一目标特征数据;采用所述第二算法对所述目标数据进行第二特征化处理,得到所述第二目标特征数据。
[0014]根据本专利技术一示例性实施例,所述第一检索操作为按汉明距离进行数据相似性度量。
[0015]根据本专利技术一示例性实施例,基于所述第二目标特征数据和所述第一检索结果,在所述第二级目标数据库中执行第二检索操作,得到第二检索结果,包括:基于所述第一检索结果,获取所述第一检索结果在所述第二级目标数据库中对应的索引值,得到目标索引值;基于所述第二目标特征数据和所述目标索引值,在所述第二目标数据库中按照余弦距离执行所述第二检索操作,得到所述第二检索结果根据本专利技术另一实施例,提高一种数据检索装置,包括:获取模块,用于获取目标数据,所述目标数据用于在目标数据库中检索,其中所述目标数据库包括第一级目标数据库和第二级目标数据库;特征化处理模块,用于采用预设算法,对所述目标数据进行特征化处理,得到目标特征数据组,其中所述目标特征数据组包括第一目标特征数据和第二目标特征数据;第一检索模块,用于基于所述第一目标特征数据,在所述第一级目标数据库中执行第一检索操作,得到第一检索结果;第二检索模块,用于基于所述第二目标特征数据和所述第一检索结果,在所述第二级目标数据库中执行第二检索操作,得到第二检索结果。
[0016]根据本专利技术一示例性实施例,所述第一级目标数据库为对原始数据库进行Bit量
化后的数据库,所述第二级目标数据库为对所述原始数据库进行Int8量化后的数据库。
[0017]根据本专利技术一示例性实施例,所述预设算法包括第一算法和第二算法;其中所述特征化处理模块,还包括:第一特征化处理单元,用于采用所述第一算法对所述目标数据进行第一特征化处理,得到所述第一目标特征数据;第二特征化处理单元,用于采用所述第二算法对所述目标数据进行第二特征化处理,得到所述第二目标特征数据。
[0018]根据本专利技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0019]根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
附图说明
[0020]图1是根据本专利技术实施例的一种数据检索方法的移动终端的硬件结构框图;图2是根据本专利技术实施例的一种数据检索方法的流程图;图3是根据本专利技术实施例的一种数据检索装置的结构框图。
具体实施方式
[0021]下文中将参考附图并结合实施例来详细说明本专利技术的实施例。
[0022]需要说明的是,本专利技术的说明书和权利要求书及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检索方法,其特征在于,包括:获取目标数据,所述目标数据用于在目标数据库中检索,其中所述目标数据库包括第一级目标数据库和第二级目标数据库;采用预设算法,对所述目标数据进行特征化处理,得到目标特征数据组,其中所述目标特征数据组包括第一目标特征数据和第二目标特征数据;基于所述第一目标特征数据,在所述第一级目标数据库中执行第一检索操作,得到第一检索结果;基于所述第二目标特征数据和所述第一检索结果,在所述第二级目标数据库中执行第二检索操作,得到第二检索结果。2.根据权利要求1所述的方法,其特征在于,所述第一级目标数据库为对原始数据库进行Bit量化后的数据库,所述第二级目标数据库为对所述原始数据库进行Int8量化后的数据库。3.根据权利要求1所述的方法,其特征在于,所述预设算法包括第一算法和第二算法;所述采用预设算法,对所述目标数据进行特征化处理,得到目标特征数据组,其中所述目标特征数据组包括第一目标特征数据和第二目标特征数据,包括:采用所述第一算法对所述目标数据进行第一特征化处理,得到所述第一目标特征数据;采用所述第二算法对所述目标数据进行第二特征化处理,得到所述第二目标特征数据。4.根据权利要求1所述的方法,其特征在于,所述第一检索操作为按汉明距离进行数据相似性度量。5.根据权利要求1所述的方法,其特征在于,基于所述第二目标特征数据和所述第一检索结果,在所述第二级目标数据库中执行第二检索操作,得到第二检索结果,包括:基于所述第一检索结果,获取所述第一检索结果在所述第二级目标数据库中对应的索引值,得到目标索引值;基于所述第二目标特征数据和所述目标索引值,在所述第二目标数据库中按照余弦...

【专利技术属性】
技术研发人员:彭垚张俊康林亦宁
申请(专利权)人:杭州闪马智擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1