一种问答召回方法、装置和存储介质制造方法及图纸

技术编号:38089476 阅读:12 留言:0更新日期:2023-07-06 09:00
本申请实施例提供一种问答召回方法、装置和存储介质。该方法包括获取用户输入的检索语料;将检索语料按照场景划分至多个召回库中,多个召回库中不同的召回库用于存储不同场景的语句;将第一召回库中的检索语料输入至ES数据库中进行召回,以获取第一召回文本;将第一召回库中的检索语料进行预处理后,输入至相似向量检索库中,以获取目标句向量;将目标句向量输入至ES数据库中进行召回,以获取第二召回文本;将第一召回文本和第二召回文本混合生成的目标召回文本根据预设算法,生成与第一召回库中的多个检索语料分别对应的检索结果。采用本申请实施例,能够快速有效地从问答资源中匹配出最接近且高质量的回答。配出最接近且高质量的回答。配出最接近且高质量的回答。

【技术实现步骤摘要】
一种问答召回方法、装置和存储介质


[0001]本申请涉及计算机
,尤其涉及一种问答召回方法、装置和存储介质。

技术介绍

[0002]以社区问答为例,越来越多的社区问答平台,为互联网用户提供了一个在线提问和解答的平台,来帮助人们快速获得日常或专业问题的高质量回答。
[0003]为了克服传统搜索引擎的缺点,问答系统技术应运而生。问答系统能够准确地识别出用户自然语言所表达的查询语义意图,并为其匹配到最相关的答案,作为查询结果。而问答系统中的传统索引式问答一般是根据任务的需要构造一个或者几个常见问题问答库进行统一的召回和排序,最后返回最好的答案。
[0004]但随着时间的推移和社会的发展,问答库中的文本会愈加充裕,且使用问答系统的用户也会越来越多。因此,随着语料的增加和召回数量的增加,响应时间也会随之增加。当同一时间进行召回的语料十分大的时候,响应时长也会被拉长。这时用户发送完一条消息后可能出现短暂的等待现象,这对于用户的体验十分的不友好;以及,传统的索引式问答在排序时,一般就是返回召回中最相似的一个,这样的方式只依赖于模型本身的表现很容易出现一些问题的误识别的情况,如何优化这种情况显的格外重要;进一步的,如何提升召回结果的丰富度,也同样有着重要的意义。
[0005]因此,如何快速有效地从问答资源中匹配出最接近且高质量的回答,是一个亟需解决的问题。

技术实现思路

[0006]本申请实施例提供一种问答召回方法、装置和存储介质,能够快速有效地从问答资源中匹配出最接近且高质量的回答。<br/>[0007]第一方面,本申请实施例提供了一种问答召回方法,所述方法包括:
[0008]获取用户输入的检索语料,所述检索语料包括一个或多个问句;
[0009]将所述检索语料按照场景划分至多个召回库中,所述多个召回库中不同的召回库用于存储不同场景的语句,同一个召回库中存储的问句属于同一个场景;
[0010]将第一召回库中的检索语料输入至弹性搜索(ElasticSearch,ES)数据库中进行召回,以获取第一召回文本,其中,所述第一召回库为所述多个召回库中的任意一个召回库;
[0011]将所述第一召回库中的检索语料进行预处理后,输入至相似向量检索库中,以获取目标句向量,所述目标句向量包括与所述第一召回库中的检索语料对应的句向量;
[0012]将所述目标句向量输入至所述弹性搜索ES数据库中进行召回,以获取第二召回文本;
[0013]将所述第一召回文本和所述第二召回文本混合生成的目标召回文本根据预设算法,生成与所述第一召回库中的多个检索语料分别对应的检索结果。
[0014]在现有技术阶段,目前问答系统的主要面临三个问题,第一,随着数据的不断累积,与用户检索的问题相关的答案越来越多,且使用此类系统的用户也越来越多,这就导致了问答系统需要处理的数据越来越多,从而导致系统的响应速度越来越慢;第二,因为不同于推荐系统可以展示多个候选商品,问答系统只能回复一种答案,因此,它必须保证自身展示给用户的就是正确答案,而不是像推荐系统一样将正确答案排在靠前的位置就算成功,否则就是一次失败的检索,这就要求了召回的答案哪个能够排在第一位具有重要意义,这也就代表着,通过何种方法对召回的答案进行排序和筛选非常关键;第三,由于数据的不断累积,与用户检索的问题相关的答案确实在飞速增加,但召回的方法存在一定的缺陷,一般是从语料的术语term角度出发进行召回,从term级的角度出发进行召回的确可以检索到与问题相关性较强的答案,但对问题的理解可能会由于自然语言的撰写方法存在差异而导致对索引的答案的方向存在问题,若语义理解出现了问题,则代表着召回的答案的精确度会极低,因此如何丰富召回的答案的丰富度,来弥补在召回阶段可能出现的问题非常重要。
[0015]在本方法中,同样是通过召回和排序两个阶段来返回针对用户输入的问题语料的答案,但在召回阶段和排序阶段上的构思进行了创新,以此来解决上述三个问题。首先,在召回阶段,本方法采用两路召回并行的方式,从语义级和术语term级两个角度出发进行召回,来丰富召回的文本的数量和范围;进一步的,无论从语义级出发还是从term级出发,均将弹性搜索ES数据库作为问答库来进行召回,以此利用弹性搜索ES数据库的快速响应的特点,来加快问答系统的响应速度;更进一步的,在从term级的角度出发进行召回的路径当中,将用户输入的检索语料直接输入至弹性搜索ES数据库,以此得到与检索语料的组成词语相关性较强的答案,所述答案相当于前述的召回文本;在从语义级出发进行召回的路径当中,本方法通过句向量获取模型、相似向量检索库和ES数据库,根据检索语料的语义进行召回,从句向量的角度出发,加强对检索语料的语义的理解,利用了相似向量检索库快速索引的特点以及ES快速搜索的特点,大大降低了响应时间,提高了用户的体验。
[0016]其次,本方法针对同一时间段用户输入的检索语料进行场景划分和分别存储,由于在同一场景中的用户提出的问题具备一致性和相关性,以催收问答为例,场景一般分为三个大的阶段,分别为核身、协商、收集信息,以此来划分召回库,针对在核身阶段的用户输入的检索语料划分至同一召回库中,其他的同理,以此将同一场景中的用户的检索语料进行同批次的处理,以便于在排序阶段采用相同的方法对召回文本进行排序,需要说明的是,不同场景中的用户的检索语料对应的排序方法可能是不同的,因此,提前对检索语料进行划分,能够有力地增加后期的排序速度。
[0017]在第一方面的又一种可能的实施方式中,所述将所述第一召回库中的检索语料进行预处理后,输入至相似向量检索库中,以获取目标句向量,包括:
[0018]将所述第一召回库的多个检索语料逐一输入至预先训练完成的句向量获取模型中,获取所述第一召回库的检索语料的句向量,所述句向量获取模型为根据所述第一召回库的历史检索语料和与所述历史检索语料对应的句向量训练得到的模型,所述第一召回库的历史检索语料为特征数据,与所述历史检索语料对应的句向量为标签数据;
[0019]将所述检索语料的句向量输入至所述相似向量检索库中,获取目标句向量,所述目标句向量包括所述第一召回库的检索语料的句向量和与所述句向量同义的其他句向量。
[0020]在根据检索语料的语义进行召回的路径中,通过句向量获取模型、相似向量检索
库和ES数据库,根据检索语料的语义进行召回,从句向量的角度出发,加强对检索语料的语义的理解。
[0021]因此召回的过程就是确定检索召回策略,生成检索下发项的过程,一个检索下发项通俗来讲就是判断哪些词要用于召回,哪些词要被丢掉。比如“windows系统iphone导照片”是一种检索下发项。实际中,一次搜索的检索策略会存在多个并行的检索下发项。这是因为确定哪些词参与召回本身是个很困难的事情,包含多个并行的下发检索项去召回进而求并集使得能够召回足够多并且是相关的文章,这也是生成目标句向量的原因。
[0022]进一步的,越是重要的词越应该在召回中被保留,所以计算疑问本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答召回方法,其特征在于,所述方法包括:获取用户输入的检索语料,所述检索语料包括一个或多个问句;将所述检索语料按照场景划分至多个召回库中,所述多个召回库中不同的召回库用于存储不同场景的语句,同一个召回库中存储的问句属于同一个场景;将第一召回库中的检索语料输入至弹性搜索ES数据库中进行召回,以获取第一召回文本,其中,所述第一召回库为所述多个召回库中的任意一个召回库;将所述第一召回库中的检索语料进行预处理后,输入至相似向量检索库中,以获取目标句向量,所述目标句向量包括与所述第一召回库中的检索语料对应的句向量;将所述目标句向量输入至所述弹性搜索ES数据库中进行召回,以获取第二召回文本;将所述第一召回文本和所述第二召回文本混合生成的目标召回文本根据预设算法,生成与所述第一召回库中的多个检索语料分别对应的检索结果。2.根据权利要求1所述的方法,其特征在于,所述将所述第一召回库中的检索语料进行预处理后,输入至相似向量检索库中,以获取目标句向量,包括:将所述第一召回库的多个检索语料逐一输入至预先训练完成的句向量获取模型中,获取所述第一召回库的检索语料的句向量,所述句向量获取模型为根据所述第一召回库的历史检索语料和与所述历史检索语料对应的句向量训练得到的模型,所述第一召回库的历史检索语料为特征数据,与所述历史检索语料对应的句向量为标签数据;将所述检索语料的句向量输入至所述相似向量检索库中,获取目标句向量,所述目标句向量包括所述第一召回库的检索语料的句向量和与所述句向量同义的其他句向量。3.根据权利要求1所述的方法,其特征在于,所述将所述目标句向量输入至所述弹性搜索ES数据库中进行召回,以获取第二召回文本,包括:根据弹性搜索ES数据库的索引方法,生成与所述第一召回库中的各个检索语料分别对应的附属标识;根据所述附属标识将所述目标句向量输入至所述弹性搜索ES数据库中,以获取第二召回文本。4.根据权利要求1

3任一项所述的方法,其特征在于,所述将所述第一召回文本和所述第二召回文本混合生成的目标召回文本根据预设算法,生成与所述第一召回库中的多个检索语料分别对应的检索结果,包括:将所述第一召回文本和所述第二召回文本进行混合,以生成目标召回文本;根据提前训练好的排序模型,对所述目标召回文本进行打分,以生成第一分值;根据所述目标召回文本与所述第一召回库中的检索语料的关键词相似度,对所述目标召回文本进行打分,以生成第二分值;根据所述第一分值、与所述第一分值对应的第一权重、第二分值和与所述第二分值对应的第二权重,以生成与所述目标召回文本分别对应的目标分值;确定目标检索语料对应的多个目标召回文本中目标分值最高的目标召回文本,其中,所述目标检索语料为所述第一召回库中任意一个检索语料;将所述目标检索语料对应的多个目标召回文本中目标分值最高的目标召回文本确定为与所述目标检索语料对应的检索结果;将所述检索结果,返回至与所述目标检索语料对应的用户。
5.根据权利要求4所述的方法,...

【专利技术属性】
技术研发人员:贾钱森徐伟毛宇黄凯王耀南刘伟
申请(专利权)人:招联消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1