【技术实现步骤摘要】
一种向量检索方法及装置
[0001]本申请涉及检索
,尤其涉及一种向量检索方法及装置。
技术介绍
[0002]随着AI技术的广泛应用,自然语言处理等技术的出现推动了传统检索领域的变革和发展。在传统的搜索领域中,多采用关键词等确定性的检索算法。而AI技术加强了对非结构化数据的处理能力,支持将非结构化数据转为多维向量,从而将搜索由原来的关键词检索转为向量化检索,由确定性检索转为相似性检索。
[0003]在向量检索领域中,通过向量之间的距离来表征对应数据的相似性程度。而且在大部分业务场景中,在满足相似性检索的前提下,搜索结果还需要满足属性特征过滤条件。该类问题可描述为带属性过滤条件的向量检索。
[0004]为了完成带属性过滤条件的向量检索技术实现,业界有如下的解决方法:
[0005]1)先过滤再检索:milvus、vearch等相关产品均采用该方法,该方法能够保证搜索到满足对应条件的结果,但在大规模数据的情况下,对于全量数据的过滤操作会导致时延过大,不满足业务性能需求;
[0006]2)检索、 ...
【技术保护点】
【技术特征摘要】
1.一种向量检索方法,其特征在于,包括:获取查询对象和过滤条件;基于查询向量和所述过滤条件,查询向量索引,其中,所述查询向量基于对所述查询对象进行特征提取得到,所述向量索引中的索引值包括特征向量和属性特征,所述特征向量基于对物料库中的对象进行特征提取得到,所述属性特征基于所述物料库中的对象的属性信息得到;基于所述过滤条件与所述属性特征的匹配结果,和所述查询向量与所述特征向量的相似度,得到召回结果;基于所述召回结果,从所述物料库中得到查询结果。2.根据权利要求1所述的方法,其特征在于,所述向量索引包括一级索引和二级索引,所述一级索引包括多个聚类簇中各个聚类簇对应的索引值,所述二级索引包括各个所述聚类簇中的所述索引值;所述基于查询向量和所述过滤条件,查询向量索引,包括:基于所述查询向量或所述过滤条件查询所述一级索引,得到若干目标查询聚类簇;基于所述查询向量和所述过滤条件查询所述若干目标查询聚类簇对应的所述二级索引,以得到所述召回结果。3.根据权利要求2所述的方法,其特征在于,所述一级索引包括向量一级索引和属性特征一级索引,其中,所述向量一级索引基于各个所述聚类簇的向量质心构建,所述属性特征一级索引基于各个所述聚类簇的属性特征分布构建;所述基于所述查询向量或所述过滤条件查询所述一级索引,得到若干目标查询聚类簇,包括:基于所述过滤条件和属性特征统计信息,得到查询策略,所述属性特征统计信息基于对各个所述聚类簇中的索引值中的属性特征进行统计得到;所述查询策略包括第一查询策略和第二查询策略,所述第一查询策略指示基于所述查询向量,通过查询向量一级索引,得到若干所述目标查询聚类簇;所述第二查询策略指示基于所述过滤条件,通过查询属性特征一级索引,得到若干所述目标查询聚类簇。4.根据权利要求3所述的方法,其特征在于,所述基于所述过滤条件和属性特征统计信息,得到查询策略,包括:基于所述过滤条件和属性特征统计信息,估计与所述过滤条件匹配的所述聚类簇的数量;当与所述过滤条件匹配的聚类簇的数量大于或等于预设阈值,将所述查询策略确定为所述第一查询策略;当与所述过滤条件匹配的聚类簇的数量小于所述预设阈值,将所述查询策略确定为所述第二查询策略。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,还包括:对所述过滤条件进行编码,得到过滤编码。6.根据权利要求1
‑
4任一项所述的方法,其特征在于,还包括:对所述过滤条件进行解析,得到多个子过滤条件集;对所述多个子过滤条件集进行编码,得到过滤编码集。
7.根据权利要求1
‑
6任一项所述的方法,其特征在于,所述索引值中的属性特征为属性特征编码。8.一种向量检索装置,其特征在于,包括:获取模块,用于获取查询对象和过滤条件;查询模块,用于基于查询向量和所述过滤条件,查询向量索引,其中,所述查询向量基于对所述查询...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。