一种向量数据库存储与检索方法技术

技术编号：32627068 阅读：13 留言：0更新日期：2022-03-12 18:00

本发明专利技术涉及计算机与人工智能领域，尤其涉及一种向量数据库存储与检索方法、装置、电子设备及存储介质。该向量数据库存储与检索方法包括：获取数据表，并将数据表水平切分，形成若干分片，其中，每个分片包括多个副本；获取数据，依据数据中所包含的键数据，进行第一次映射，键数据做Hash得到一个整数，依据整数对若干分片取模求余，得到分片号，而后，在进行第二次映射，依据分片号，获取分片号所对的多个副本；其中，分片号用于表征分片，每个分片对应有一个分片号；根据第一次映射和第二次映射为获取数据建立元数据服务器上的向量存储引擎，其中，向量存储引擎用于表征数据的查找方式。本发明专利技术具有提高检索准确率，降低检索延时，增加可靠性和易用性。可靠性和易用性。可靠性和易用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种向量数据库存储与检索方法

[0001]本专利技术涉及计算机与人工智能领域，具体涉及到分布式存储
，尤其涉及一种向量数据库存储与检索方法。

技术介绍

[0002]随着人工智能应用的普及，“向量相似度检索”作为一个最基本的服务，应用到越来越多的人工智能业务上。比如人脸识别，语音音识别，新闻推荐等。大部分的使用方式都是先用神经网络模型将图片，文本等变成特征向量，再选择一种距离计算方式(比如内积距离，余弦距离等)。这样，任意给定一个向量，就能找到与其距离相近的K个向量。我们把这种检索成为KNN检索(K Nearest Neighbours)。然而，虽然有各种各样的开源算法库用于KNN检索，但大多都只停留在代码库的层面，工程师需要使用编程语言对其进行初始化与调用，这给工程师的使用上带来了一些问题。例如，多人对同一份数据的索引共享以及数据量过大的导致系统性能差的问题等。

技术实现思路

[0003]针对现有技术的上述缺陷，本专利技术提供的一种向量数据库存储与检索方法，解决了上述技术问题，提供一种能够解决多人对同一份数据的索引共享以及数据量过大的导致系统性能差的问题的一种向量数据库存储与检索方法。
[0004]为了达到上述目的，本专利技术提供如下技术方案：
[0005]在本专利技术实施例的第一方面，首先提供了一种向量数据库存储与检索方法，方法包括：获取数据表，并将数据表水平切分，形成若干分片，其中，每个分片包括多个副本；
[0006]获取数据，依据数据中所包含的键数据，进行第一次映射...

【技术保护点】

【技术特征摘要】
1.一种向量数据库存储与检索方法，其特征在于，包括：获取数据表，并将数据表水平切分，形成若干分片，其中，每个所述分片包括多个副本；获取数据，依据数据中所包含的键数据，进行第一次映射，所述键数据做Hash得到一个整数，依据所述整数对所述若干分片求余，得到分片号，而后，再进行第二次映射，根据所述第一次映射和所述第二次映射为所述获取数据建立元数据服务器；其中，分片号用于表征分片，每个所述分片对应多个副本，并且，多个所述副本中包括一个主副本，每个副本对应一个向量存储引擎，依据所述分片号，获取所述主副本对应的向量存储引擎；基于获取到的一个所述主副本向量存储引擎，对其写入向量数据；基于获取到的所述主副本向量存储引擎，对其进行向量相似度检索。2.根据权利要求1所述的向量数据库存储与检索方法，其特征在于，所述获取数据表，并将数据表水平切分，形成若干分片的步骤中，包括：所述元数据服务器包括若干数据服务器，基于Raft协议在若干数据服务器中选取一个主服务器以及其他副服务器，所述主服务器与所述副服务器进行数据交互，以便所述主服务器与所述副服务器中所述元数据的一致性。3.根据权利要求1所述的向量数据库存储与检索方法，其特征在于，所述获取数据，依据数据中所包含的键数据，进行第一次映射，所述键数据做Hash得到一个整数，依据所述整数对所述若干分片求余，得到分片号，而后，再进行第二次映射，根据所述第一次映射和所述第二次映射为所述获取数据建立元数据服务器；其中，分片号用于表征分片，每个所述分片对应多个副本，并且，多个所述副本中包括一个主副本，每个副本对应一个向量存储引擎，依据所述分片号，获取所述主副本对应的向量存储引擎的步骤中，包括：将所述若干分片赋予数字，依据获取的所述整数与所述数字进行匹配，获得分片号，以便确定所述分片。4.根据权利要求3所述的向量数据库存储与检索方法，其特征在于，所述基于获取到的一个所述主副本向量存储引擎，对其写入向量数据的步骤中，包括：所述数据还包括所述向量数据，每个所述副本对应一个所述数据服务器上的向量引擎；基于所述数据包括的向量数据和键数据，确定该数据对应一个具体所述数据服务器上的向量存储引擎。5.根据权利要求4所述的向量数据库存储与检索方法，其特征在于，所述基于获取到的一个所述主副本向量存储引擎，对其写入向量数据的步骤后，包括：获取所述向量数据相似度的索引请求，对每个所述分片所包括的至少一个副本做索引，在索引的所述副本中选取相似度最高的预设数量的向量数据，再将索引到的预...

【专利技术属性】
技术研发人员：李明昊，
申请(专利权)人：李明昊，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人