基于缓存优化HNSW算法的向量数据查询方法技术

技术编号：38757717 阅读：15 留言：0更新日期：2023-09-10 09:42

本发明专利技术提供了一种基于缓存优化HNSW算法的向量数据查询方法，包括：将所有待查询向量形成索引图，索引图包括多层；输入第一查询向量，从索引图的最高层开始查询与第一查询向量距离最近的待查询向量，以作为下一层的入口，直到查找出索引图的最底层入口；将第一查询向量和对应的最底层入口存储在缓存区中；输入第二查询向量，在缓存区中查询是否存在与第二查询向量相同的查询向量；如果有，则直接查找该查询向量对应的最底层入口，作为第二查询向量对应的最底层入口；如果没有，则在存储区中，从索引图的最高层再一步步查询对应的最底层入口；在存储区中，进行以最底层入口作为起点，查询与第二查询向量距离最小的k个待查询向量的操作。操作。操作。

全部详细技术资料下载

【技术实现步骤摘要】
基于缓存优化HNSW算法的向量数据查询方法

[0001]本专利技术涉及数据处理
，尤其是涉及一种基于缓存优化HNSW算法的向量数据查询方法。

技术介绍

[0002]通过基于缓存优化HNSW算法的向量数据查询方法，可以根据输入的查询向量在大量的待查询向量中中查找到想要的数据。在向量查询算法中，主要利用一些相似性对比来得到想要的数据，而这些对比方式主要是利用距离计算得到的。
[0003]近似最近邻搜索索引以近似最近邻搜索算法为基础，是用于在高维空间中有效搜索给定查询点的最近邻的数据结构，以搜索准确性为代价提高最近邻查询速度，主流向量数据库都使用近似最近邻检索索引。现有技术的近似最近邻搜索算法大多是基于内存的算法，基于内存的算法意味着是在进行查询操作前需要将存储区中所有的向量数据载入进内存。
[0004]但是，随着向量数据的爆炸性增长和向量数据处理技术在实际业务中的应用场景增多，需要向量数据库处理的向量数据量从百万级别上升到了亿级别，在亿级别或更高的数据量情况下，将存储区中所有的向量数据载入进内存变得不现实，将现有技术的基于内存的搜索算法应用于硬盘上的向量数据会带来巨大的性能损耗，对硬盘I/O带来了巨大压力。

技术实现思路

[0005]本专利技术的目的在于提供一种基于缓存优化HNSW算法的向量数据查询方法，可以减少在硬盘中进行查询向量的查询计算的步骤，从而，可以减少硬盘I/O压力和性能损耗。
[0006]为了达到上述目的，本专利技术提供了一种基于缓存优化HNSW算法的向量数据查...

【技术保护点】

【技术特征摘要】
1.一种基于缓存优化HNSW算法的向量数据查询方法，其特征在于，包括：将所有待查询向量形成索引图，所述索引图包括多层；输入第一查询向量，从索引图的最高层开始查询与所述第一查询向量距离最近的待查询向量，以作为下一层的入口，直到查找出所述索引图的最底层入口；将所述第一查询向量和对应的最底层入口存储在缓存区中；输入第二查询向量，在所述缓存区中查询是否存在与所述第二查询向量相同的查询向量；如果所述缓存区中存在与所述第二查询向量相同的查询向量，则直接查找该查询向量对应的最底层入口，作为所述第二查询向量对应的最底层入口；如果所述缓存区中不存在与所述第二查询向量相同的查询向量，则在存储区中，从索引图的最高层开始向下查询与所述第二查询向量距离最近的待查询向量，以作为每层的入口，直到查找出所述索引图的最底层入口，同时，将所述第二查询向量和对应的最底层入口存储在所述缓存区中或者使用所述第二查询向量和对应的最底层入口替换所述缓存区中的某一查询向量和...

【专利技术属性】
技术研发人员：吴一梵，苏鹏，李剑楠，黄炎，陈书俊，李恒，阎虎青，
申请(专利权)人：上海爱可生信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人