基于多种检索方式融合检索的方法和装置制造方法及图纸

技术编号:24497738 阅读:27 留言:0更新日期:2020-06-13 03:43
本说明书实施例提供一种基于多种检索方式融合检索的方法和装置,方法包括:获取目标检索对象对应的目标检索向量和过滤条件;根据目标检索向量,从数据库的备选检索对象集中召回距离目标检索向量最近的第一数目个第一候选对象,第一数目为预先设定的;根据过滤条件,按照条件过滤方式从第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将第二数目添加到累积数目;若累积数目小于预设阈值,则将第一数目个第一候选对象从备选检索对象集中排除,以更新备选检索对象集,并再次从更新的备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于预设阈值。能够兼顾检索性能和返回结果数量。

The method and device of fusion retrieval based on multiple retrieval methods

【技术实现步骤摘要】
基于多种检索方式融合检索的方法和装置
本说明书一个或多个实施例涉及计算机领域,尤其涉及基于多种检索方式融合检索的方法和装置。
技术介绍
当前存在着大量的检索场景,如电子支付平台的线下刷脸支付时对人脸图像的检索、电子商务平台的商品图片检索等。为了达到最佳的检索性能,常常需要基于多种检索方式融合检索。现有技术中基于多种检索方式融合检索时,通常先进行向量检索,然后基于其他条件对向量检索的结果进行过滤,这样会带来向量检索的结果大量被过滤,导致不满足返回结果数量,甚至返回为空的结果。因此,希望能有改进的方案,能够基于多种检索方式融合检索时兼顾检索性能和返回结果数量。
技术实现思路
本说明书一个或多个实施例描述了一种基于多种检索方式融合检索的方法和装置,能够基于多种检索方式融合检索时兼顾检索性能和返回结果数量。第一方面,提供了一种基于多种检索方式融合检索的方法,方法包括:获取目标检索对象对应的目标检索向量和过滤条件;根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。在一种可能的实施方式中,所述方法还包括:若所述累积数目大于或等于所述预设阈值,则输出筛选出的所述累积数目的候选对象作为所述目标检索对象对应的检索结果。在一种可能的实施方式中,所述从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,包括:通过近似最近邻(approximatenearestneighbor,ANN)向量检索方式,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象。在一种可能的实施方式中,所述从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,包括:根据所述目标检索向量,从数据库的备选检索对象集中选择第一数目个初始候选对象放入优先队列中;所述优先队列中与所述目标检索向量距离最远的初始候选对象为第一初始候选对象;所述第一初始候选对象与所述目标检索向量之间的距离为第一距离;在所述第一初始候选对象的各邻居中,寻找与所述目标检索向量之间的距离小于所述第一距离的替换候选对象,用所述替换候选对象替换所述优先队列中的所述第一初始候选对象,再基于替换后的优先队列寻找替换候选对象,直到无法寻找到所述替换候选对象,将所述优先队列中的各候选对象作为距离所述目标检索向量最近的第一数目个第一候选对象。在一种可能的实施方式中,所述目标检索对象包括:图片或文本。在一种可能的实施方式中,所述目标检索对象为人脸图片;所述过滤条件包括:人脸图片对应用户的地域条件。在一种可能的实施方式中,所述目标检索对象为商品图片;所述过滤条件包括:商品图片对应商品的商品类型条件。在一种可能的实施方式中,所述目标检索对象为文本;所述过滤条件包括:文本包含的关键词条件。第二方面,提供了一种基于多种检索方式融合检索的装置,装置包括:获取单元,用于获取目标检索对象对应的目标检索向量和过滤条件;第一检索单元,用于根据所述获取单元获取的目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;第二检索单元,用于根据所述获取单元获取的过滤条件,按照条件过滤方式从所述第一检索单元得到的第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;迭代单元,用于若所述累积数目小于预设阈值,则将所述第一检索单元得到的第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次通过所述第一检索单元从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到所述第二检索单元筛选出的候选对象的累积数目大于或等于所述预设阈值。第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书实施例提供的方法和装置,首先获取目标检索对象对应的目标检索向量和过滤条件;然后根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;接着根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;最后若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。由上可见,本说明书实施例,不是通过一次向量检索和条件过滤得到最终的检索结果,而是通过迭代查询的方式,从而能够兼顾检索性能和返回结果数量。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本说明书披露的一个实施例的实施场景示意图;图2示出根据一个实施例的基于多种检索方式融合检索的方法流程图;图3示出根据一个实施例的基于多种检索方式融合检索的装置的示意性框图。具体实施方式下面结合附图,对本说明书提供的方案进行描述。图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及基于多种检索方式融合检索,具体地,涉及向量检索方式和普通查询检索方式的融合检索。其中,向量检索方式:根据输入向量,在待检索向量中查询最相似的前k个向量的过程,是近似最近邻(approximatenearestneighbor,ANN)领域重要的技术,在图片搜索、文本搜索、推荐场景大量应用。普通查询检索方式(即条件过滤方式):指的是结构化数据的检索,如文本匹配、数值范围检索等。参照图1,针对目标检索对象先进行向量检索,从数据库中召回第一数目个候选对象,然后基于普通查询对第一数目个候选对象进行过滤,得到第二数目个候选对象,第二数目可能与第一数目之间的差距过大,甚至第二数本文档来自技高网...

【技术保护点】
1.一种基于多种检索方式融合检索的方法,所述方法包括:/n获取目标检索对象对应的目标检索向量和过滤条件;/n根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;/n根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;/n若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。/n

【技术特征摘要】
1.一种基于多种检索方式融合检索的方法,所述方法包括:
获取目标检索对象对应的目标检索向量和过滤条件;
根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;
根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;
若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。


2.如权利要求1所述的方法,其中,所述方法还包括:
若所述累积数目大于或等于所述预设阈值,则输出筛选出的所述累积数目的候选对象作为所述目标检索对象对应的检索结果。


3.如权利要求1所述的方法,其中,所述从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,包括:
通过近似最近邻ANN向量检索方式,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象。


4.如权利要求1所述的方法,其中,所述从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,包括:
根据所述目标检索向量,从数据库的备选检索对象集中选择第一数目个初始候选对象放入优先队列中;所述优先队列中与所述目标检索向量距离最远的初始候选对象为第一初始候选对象;所述第一初始候选对象与所述目标检索向量之间的距离为第一距离;
在所述第一初始候选对象的各邻居中,寻找与所述目标检索向量之间的距离小于所述第一距离的替换候选对象,用所述替换候选对象替换所述优先队列中的所述第一初始候选对象,再基于替换后的优先队列寻找替换候选对象,直到无法寻找到所述替换候选对象,将所述优先队列中的各候选对象作为距离所述目标检索向量最近的第一数目个第一候选对象。


5.如权利要求1所述的方法,其中,所述目标检索对象包括:图片或文本。


6.如权利要求1所述的方法,其中,所述目标检索对象为人脸图片;
所述过滤条件包括:
人脸图片对应用户的地域条件。


7.如权利要求1所述的方法,其中,所述目标检索对象为商品图片;
所述过滤条件包括:
商品图片对应商品的商品类型条件。


8.如权利要求1所述的方法,其中,所述目标检索对象为文本;
所述过滤条件包括:
文本包含的关键词条件。


9.一种基于多种检索方式融合检索的装置,所述装置包括:
获取单元,用于获取目标检索对象对应的目标检索向量和过滤条件;
第一检索单元,用于根据所述获取单元获取的目标检索...

【专利技术属性】
技术研发人员:李涛杨文魏宏方概
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1