向量数据库检索方法技术

技术编号:39818647 阅读:6 留言:0更新日期:2023-12-22 19:37
本发明专利技术提供一种向量数据库检索方法

【技术实现步骤摘要】
向量数据库检索方法、系统、电子设备及存储介质


[0001]本专利技术涉及信息
,具体涉及一种向量数据库检索方法

系统

电子设备及存储介质


技术介绍

[0002]在面向大量的数据时,对信息的快速而又准确的检索方法就显得尤为重要

其中,近似最近邻搜索(
ANN
)是信息检索中一个一直被关注的核心技术
。ANN
旨在通过牺牲一定精确的情况下,高效快速地找到高维空间中最近邻搜索问题的近似解

目前市面上主流的搜索技术为基于树



量化和哈希

但是在面对高维的大数据集时,
ANN
就会出现一定的局限性,具体包括:(1)随着数据维度的增加,许多算法都难以提供精确的结果

这被称为维度灾难

在高维空间中,数据之间会变得更加稀疏,导致最终获取的结果更为不精准

[0003](2)算法本身还需要在召回率和准确性之间进行权衡

提高精准度的同时会降低召回率,反之亦然

有时候一些程序会需要非常高的召回率,这意味着算法必须检索大部分的最近邻居,这会非常影响效率收益

所以,在不影响效率或大量参数的情况下,
ANN
算法无法实现如此之高的召回率

[0004]目前此问题缺乏简便有效的解决方案
>。

技术实现思路

[0005]本专利技术的目的在于提供一种向量数据库检索方法

系统

电子设备及存储介质,利用基于哈希的算法和基于图的近似最近邻搜索方法两阶段地实现检索的优化

[0006]为实现上述目的,本专利技术提供一种向量数据库检索方法,包括以下步骤:获取查询向量;将向量数据库中的各原始向量映射到多个哈希桶中;根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果

[0007]可选的,所述将向量数据库中的各原始向量映射到多个哈希桶中,具体包括:基于局部敏感哈希算法,将所述向量数据库中的各所述原始向量映射到多个所述哈希桶中

[0008]可选的,所述根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果,具体包括:在各所述哈希桶的范围内,基于可导航小世界网络算法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量

[0009]可选的,所述根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果,具体包括:获取所述查询向量对应的所述哈希桶,在该哈希桶和
\
或与该哈希桶相邻的哈希桶中选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量

[0010]可选的,所述根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果,具体包括:在所有所述哈希桶中选取若干个所述哈希桶,根据选取出的所述哈希桶中的各所述原始向量,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量

[0011]可选的,所述在所有所述哈希桶中选取若干个所述哈希桶,具体包括:针对每一个所述哈希桶,获取该哈希桶中所有所述原始向量的平均向量;计算每一个所述平均向量与所述查询向量的距离,并选取与所述查询向量的距离按从小到大排名前预设位数的所述平均向量所对应的所述哈希桶

[0012]可选的,还包括:将所述查询向量转化为第一哈希向量;将向量数据库中的各原始向量映射到多个哈希桶中以获取与所述原始向量一一对应的第二哈希向量;根据所述第一哈希向量和所述第二哈希向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果

[0013]本专利技术还提供一种检索系统,包括:获取模块,用于获取查询向量;映射模块,用于将向量数据库中的各原始向量映射到多个哈希桶中;计算模块,用于根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果

[0014]本专利技术还提供一种电子设备,所述电子设备包括:存储器,存储有计算机程序;处理器,与所述存储器通信相连,调用所述计算机程序时执行上述任一项所述的向量数据库检索方法;显示器,与所述处理器和所述存储器通信相连,用于显示与所述向量数据库检索方法相关
GUI
交互界面

[0015]本专利技术还提供一种存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述的向量数据库检索方法

[0016]本专利技术提供的向量数据库检索方法

系统

电子设备及存储介质具有如下有益效果:本专利技术提供一种向量数据库检索方法,包括以下步骤:获取查询向量;将向量数据库中的各原始向量映射到多个哈希桶中;根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果

如此设置,本专利技术重构了哈希和基于图的近似最近邻搜索方法这两个单一的搜索算法并且整合成两阶段搜索来应用于大规模高维数据上

既能够对高维数据上进行了哈希处理以此来减少范围以提升效率,又能使用基于图的近似最近邻搜索方法来精确范围来增加所获取结果的准确性

此方案能够控制召回率和精确率的问题

此方法既保证了速度,而又确保了召回率

[0017]本专利技术还提供一种检索系统,由于所述检索系统与所述向量数据库检索方法属于同一个专利技术构思,因此所述检索系统既能够对高维数据上进行了哈希处理以此来减少范围以提升效率,又能使用基于图的近似最近邻搜索方法来精确范围来增加所获取结果的准确性

[0018]本专利技术还提供一种电子设备,由于所述电子设备与所述向量数据库检索方法属于同一个专利技术构思,因此所述电子设备既能够对高维数据上进行了哈希处理以此来减少范围
以提升效率,又能使用基于图的近似最近邻搜索方法来精确范围来增加所获取结果的准确性

[0019]本专利技术还提供一种存储介质,由于所述存储介质与所述向量数据库检索方法属于同一个专利技术构思,因此所述存储介质既能够对高维数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种向量数据库检索方法,其特征在于,包括以下步骤:获取查询向量;将向量数据库中的各原始向量映射到多个哈希桶中;根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果
。2.
如权利要求1所述的向量数据库检索方法,其特征在于,所述将向量数据库中的各原始向量映射到多个哈希桶中,具体包括:基于局部敏感哈希算法,将所述向量数据库中的各所述原始向量映射到多个所述哈希桶中
。3.
如权利要求1所述的向量数据库检索方法,其特征在于,所述根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果,具体包括:在各所述哈希桶的范围内,基于可导航小世界网络算法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量
。4.
如权利要求1至3中任一所述的向量数据库检索方法,其特征在于,所述根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果,具体包括:获取所述查询向量对应的所述哈希桶,在该哈希桶和
\
或与该哈希桶相邻的哈希桶中选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量
。5.
如权利要求1至3中任一所述的向量数据库检索方法,其特征在于,所述根据映射到多个所述哈希桶中的各所述原始向量,并通过基于图的近似最近邻搜索方法,选取与所述查询向量的距离按从小到大排名前预设位数的所述原始向量作为输出结果,具体包括:在所有所述哈希桶中选取若干个所述哈希桶,根据选取出的所述哈希桶中的各所述原始向量,选取与所...

【专利技术属性】
技术研发人员:王明耀李剑楠苏鹏黄炎陈书俊梁广涛李恒
申请(专利权)人:上海爱可生信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1