检索方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33305219 阅读:44 留言:0更新日期:2022-05-06 12:14
本申请公开了一种检索方法、装置、电子设备及存储介质,涉及自然语言处理、智能搜索、深度学习等领域。具体实现方案为:获取检索内容,将检索内容通过切词得到词组集合,并将检索内容转化为语义向量;从显示召回引擎中获取词组集合中每个词组对应的倒排拉链;从向量空间中获取语义向量对应的向量结果,并将多个向量根据向量对应的文档信息进行重排序,获取多个向量对应的目标拉链;获取倒排拉链与目标拉链的交集,并获取交集对应的目标文档集合进行返回。同时具备显示召回和隐式召回的混合召回能力,显著提升了检索效果。且资源和运维成本远远小于现有的双检索系统方案。远小于现有的双检索系统方案。远小于现有的双检索系统方案。

【技术实现步骤摘要】
检索方法、装置、电子设备及存储介质


[0001]本申请公开了一种检索方法、装置、电子设备及存储介质,涉及人工智能
,具体涉及自然语言处理、智能搜索、深度学习等领域。

技术介绍

[0002]检索引擎一般分为两类,一类是基于倒排索引的传统显式召回引擎,一类是基于向量空间中的近似最近邻算法的向量检索引擎。
[0003]随着大规模深度学习算法的研究不断深入,通过海量文本训练出的具备语义特征的模型被广泛地应用在检索系统当中,深度学习算法对文本的高维建模,能够理解语义语境等抽象信息,通过隐式召回进而提升检索的效果。不同于传统基于文本相关性进行显示召回的方式,隐式召回能够更深层次地理解用户需求,更智能地给出符合用户需要的结果。
[0004]但是,隐式召回也存在劣势,基于深度学习的模型进行召回,召回是向量之间距离的运算结果,结果无法理性解释,容易产生坏案例。
[0005]申请内容
[0006]本申请提供了一种检索方法、装置、电子设备及存储介质,以提高检索效果。
[0007]根据本申请的第一方面,提供了一种检索方法,包括:
[0008]响应于接收到包含检索内容的检索请求,将所述检索内容通过切词得到词组集合,并将所述检索内容转化为语义向量;
[0009]从显示召回引擎中获取所述词组集合中每个词组对应的倒排拉链;其中,所述倒排拉链包含对应词组下的多个文档信息;
[0010]从向量空间中获取所述语义向量对应的多个向量,并将所述多个向量根据向量对应的文档信息进行重排序,获取所述多个向量对应的目标拉链;
[0011]获取所述倒排拉链与所述目标拉链的交集,并获取所述交集对应的目标文档集合进行返回。
[0012]根据本申请的第二方面,提供了一种检索装置,包括:
[0013]响应模块,用于响应于接收到包含检索内容的检索请求,将所述检索内容通过切词得到词组集合,并将所述检索内容转化为语义向量;
[0014]显示召回模块,用于从显示召回引擎中获取所述词组集合中每个词组对应的倒排拉链;其中,所述倒排拉链包含对应词组下的多个文档信息;
[0015]隐式召回模块,用于从向量空间中获取所述语义向量对应的多个向量,并将所述多个向量根据向量对应的文档信息进行重排序,获取多个向量对应的目标拉链;
[0016]混合返回模块,用于获取所述倒排拉链与所述目标拉链的交集,并获取所述交集对应的目标文档集合进行返回。
[0017]根据本申请的第三方面,提供了一种电子设备,其特征在于,包括:
[0018]至少一个处理器;以及
[0019]与所述至少一个处理器通信连接的存储器;其中,
[0020]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
[0021]根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行第一方面所述的方法。
[0022]根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现第一方面所述方法的步骤。
[0023]根据本申请的技术解决了双检索系统或者单显示召回或者单隐式召回的检索系统的检索准确度不佳的问题,提高了检索引擎的检索效果。
[0024]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0025]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0026]图1是根据本申请第一实施例的检索方法的流程示意图;
[0027]图2是根据本申请第二实施例的检索方法的流程示意图;
[0028]图3是根据本申请第三实施例的检索装置的框图;
[0029]图4是用来实现本申请实施例的检索方法的电子设备的框图。
具体实施方式
[0030]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0031]目前检索引擎一般分为具有显示召回能力的检索引擎和具有隐式召回能力的检索引擎。显式召回与隐式召回各有优缺点。
[0032]显式召回的优势:召回内容和检索的内容相关性强。
[0033]显式召回的劣势:对用户检索内容无法进行深层次理解,例如,搜索感冒了怎么办,就很难召回感冒了吃什么药,感冒了要注意什么等等相关的内容。
[0034]隐式召回的优势:能够产生对文本的深层次理解,召回显示召回很难召回的结果。
[0035]隐式召回的劣势:基于深度学习的模型进行召回,召回是向量之间距离的运算结果,结果无法理性解释,容易产生bad case(坏案例)。
[0036]相关技术中,并没有同时支持显式和隐式召回的检索引擎系统,也没有支持两种方式混合召回的系统。工业界检索引擎例如:检索引擎Lucene,支持传统显式召回,还未支持隐式召回。检索引擎Milvus:仅支持隐式向量召回,不支持显式召回。
[0037]在实际工程场景,往往是同时存在两套检索系统,分别进行显式和隐式的召回,在聚合层统一聚合。首先,这对两个检索系统的数据一致性有很高的要求,数据不一致的话,两个检索系统的数据对不上,聚合得到的结果准确性会大打折扣。另外,显示召回系统中往往也需要向量信息进行基本的相关性计算,导致数据在两个检索系统双倍存储,增加检索系统资源成本。同时维护两套系统的运维成本也远远大于一套统一的检索系统。
[0038]综上所述,为了充分利用两种不同召回方式的优势,搜索引擎需要同时支持传统的相关性显示召回和智能的语义隐式召回,并且能够将两种方式进行混合,以达到更优的检索效果,满足用户的检索需求。
[0039]本申请就是为了解决以上问题,设计的一种支持显示召回和隐式召回混合召回的检索引擎。
[0040]为解决上述技术问题,本申请提出了一种检索方法、装置、电子设备和计算机可读存储介质,可以实现混合召回,充分利用显示召回和隐式召回的优势,补齐不足,提供更优质的检索结果。
[0041]下面参照附图来描述根据本申请实施例提出的检索方法、装置、电子设备和计算机可读存储介质。
[0042]图1是根据本申请一个实施例的检索方法的流程图。需要说明的是,本申请实施例的检索方法可应用于本申请实施例的检索装置。该检索装置可被配置于电子设备上。如图1所示,该检索方法可以包括步骤S101

步骤S104。
[0043]S101,响应于接收到包含检索内容的检索请求,将检索内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检索方法,包括:响应于接收到包含检索内容的检索请求,将所述检索内容通过切词得到词组集合,并将所述检索内容转化为语义向量;从显示召回引擎中获取所述词组集合中每个词组对应的倒排拉链;其中,所述倒排拉链包含对应词组下的多个文档信息;从向量空间中获取所述语义向量对应的多个向量,并将所述多个向量根据向量对应的文档信息进行重排序,获取所述多个向量对应的目标拉链;获取所述倒排拉链与所述目标拉链的交集,并获取所述交集对应的目标文档集合进行返回。2.根据权利要求1所述的方法,其中,所述响应于接收到包含检索内容的检索请求,将所述检索内容通过切词得到词组集合,并将所述检索内容转化为语义向量;还包括:将所述词组集合和所述语义向量组成检索表达式。3.根据权利要求2所述的方法,其中,所述将所述词组集合和所述语义向量组成检索表达式,包括:将所述词组集合中的每个词组作为一个节点,以及将所述语义向量作为一个节点;其中,每个所述节点包含节点类型属性;根据预设逻辑表达式,由多个所述节点构建成检索表达式。4.根据权利要求3所述的方法,其中,所述从显示召回引擎中获取所述词组集合中每个词组对应的倒排拉链,包括:提取所述检索表达式中的节点类型属性为自然语言的词组集合;基于所述词组集合,从显示召回引擎中获取所述词组集合中每个词组对应的倒排拉链;其中,所述倒排拉链包含的文档信息为文档唯一标识。5.根据权利要求3所述的方法,其中,所述从向量空间中获取所述语义向量对应的多个向量,并将所述多个向量根据向量对应的文档信息进行重排序,获取所述多个向量对应的目标拉链;包括:提取所述检索表达式中的节点类型属性为向量的语义向量;基于所述语义向量,从向量空间中获取所述语义向量对应的多个向量;将所述多个向量根据向量对应的文档信息进行重排序,获取所述多个向量对应的目标拉链;其中,所述文档信息为文档唯一标识。6.根据权利要求3所述的方法,其中,所述获取所述倒排拉链与所述目标拉链的交集,并获取所述交集对应的目标文档集合进行返回,包括:基于所述检索表达式,将所述倒排拉链与所述目标拉链组成归并树;获取所述归并树对应的目标文档集合进行返回。7.一种检索装置,包括:响应模块,用于响应于接收到包含检索内容的检索请求,将所述检索内容通过切词得到词组集合,并将所述检索内容转化为语义向量;显示召回模块,用于从显示召回引擎中获取所述词组集合中每个词组对应的倒排拉链;其中,所述倒排拉链包含对应词组下的多个文档信息;隐式召回模块,用于从向量空间中获取所述语义向量对应的多个向量,并将所述...

【专利技术属性】
技术研发人员:滕岩松刘伟张谦王剑强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1