【技术实现步骤摘要】
本申请涉及信息检索,具体而言,涉及一种基于大模型的检索增强方法、装置、智能客服系统及介质。
技术介绍
1、针对搜索场景下的用户问句和标准问句库的语义匹配问题,经历了从无 监督学习到有监督学习,从传统机器学习到深度学习的技术演进。
2、现有的方式是在训练智能客服系统时,采用人工标注(用户提问,标准问题)样本对,训练向量表征召回模型;在线阶段,获取用户提问向量,以及标准问题库中的向量,计算与用户提问向量topk相似的标准问题,取最相似的标准问题对应的回复内容作为回复结果。
3、然而,专利技术人发现上述的训练样本只用到了(用户提问,标准问题)样本对,无法完全学到用户提问与提问之间的相似性,使得召回模型的召回能力有限,且训练阶段采用in-batch的对比学习损失函数会误将一部分正样本当做负样本,使得模型无法充分训练,从而导致训练出的智能客服系统输出的回复不准确。
技术实现思路
1、本申请实施例的目的在于提供一种基于大模型的检索增强方法、装置、智能客服系统及介质,通过搭建算法模型,提升了智能客服回复用户提问的准确率。
2、第一方面,提供了一种基于大模型的检索增强方法,应用于智能客服系统中,该方法可以包括:
3、获取当前用户输入的用户问题内容和相应的用户意图;
4、采用预先训练好的召回模型,对输入的用户问题内容与标准问答库中的标准问题进行匹配,得到与所述用户问题内容匹配的预设数量个标准问答信息;所述召回模型是基于客服系统存储的历史用户
5、基于所述用户意图,采用预先训练好的大模型,对预设数量个标准问答信息进行分析,得到各标准问答信息的输出概率;
6、基于所述各标准问答信息的输出概率,获取所述用户问题内容的回复结果。
7、在一个可能的实现中,所述正样本对包括与历史用户问题内容具有相同历史用户意图的任一历史用户问题内容和第一标准问题组成的样本对,以及具有相同历史用户意图的两个不同历史用户问题内容组成的样本对;
8、所述负样本对包括与历史用户问题内容具有不同历史用户意图的任一历史用户问题内容和第二标准问题组成的样本对,以及具有不同历史用户意图的两个不同历史用户问题内容组成的样本对。
9、在一个可能的实现中,所述召回模型的骨干网络模型为bert-like架构的模型或改进的llm架构双塔模型。
10、在一个可能的实现中,所述召回模型的训练过程包括:
11、获取智能客服系统存储的历史用户问题内容和相应的历史用户意图;
12、基于历史用户意图和标准问答库,构建包含所述正样本对和所述负样本对的训练样本对;
13、采用in-batch对比学习的方式,将所述训练样本对输入目标神经网络模型,并采用预设损失函数对目标神经网络模型输出的结果进行收敛处理,直至满足预设收敛条件,以得到训练好的召回模型。
14、在一个可能的实现中,所述预设损失函数为带掩码的对比学习损失函数。
15、在一个可能的实现中,所述召回模型包括:输入层、模型层、表征聚合层、表征输出层、归一化层、匹配层和输出层;
16、输入层,用于在第一输入口向模型层输入所述用户问题内容,在第二输入口向模型层输入标准问答库中的任一标准问题;
17、模型层,用于获取所述用户问题内容的第一表征向量与所述标准问题的第二表征向量;
18、表征聚合层,用于分别对第一表征向量与所述标准问题的第二表征向量进行序列维度聚合,得到第一句子粒度表征向量和第二句子粒度表征向量;
19、表征输出层,用于输出经序列维度聚合后的第一句子粒度表征向量和第二句子粒度表征向量;
20、归一化层,用于对第一句子粒度表征向量和第二句子粒度表征向量进行归一化,得到第一归一化表征向量和第二归一化表征向量;
21、匹配层,用于采用预设的匹配算法,对第一归一化表征向量和第二归一化表征向量进行匹配,得到匹配分数;
22、输出层,用于输出预设数量个匹配分数最高的标准问题和相应的标准回复。
23、在一个可能的实现中,基于所述各标准问答信息的输出概率,获取所述用户问题内容的回复结果。
24、若存在任一标准问答信息的输出概率最大且大于概率阈值,则将该标准问答信息中的标准回复确定为所述用户问题内容的回复结果;
25、或者,若存在至少一个标准问答信息的输出概率最大且不大于概率阈值,则将至少一个标准问答信息中的标准回复均确定为所述用户问题内容的回复结果。
26、第二方面,提供了一种基于大模型的检索增强装置,应用于智能客服系统中,该装置可以包括:
27、获取单元,用于获取当前用户输入的用户问题内容和相应的用户意图;
28、匹配单元,用于采用预先训练好的召回模型,对输入的用户问题内容与标准问答库中的标准问题进行匹配,得到与所述用户问题内容匹配的预设数量个标准问答信息;所述召回模型是基于客服系统存储的历史用户问题内容和标准问答库组成的正样本对和负样本对,对目标神经网络模型进行迭代训练得到的;所述标准问答信息包括匹配的标准问题和相应的标准回复;
29、分析单元,用于基于所述用户意图,采用预先训练好的大模型,对预设数量个标准问答信息进行分析,得到各标准问答信息的输出概率;
30、所述获取单元,还用于基于所述各标准问答信息的输出概率,获取所述用户问题内容的回复结果。
31、第三方面,提供了一种智能客服系统,该系统包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
32、存储器,用于存放计算机程序;
33、处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
34、第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
35、本申请实施例提供的基于大模型的检索增强方法在获取当前用户输入的用户问题内容和相应的用户意图后,采用预先训练好的召回模型,对输入的用户问题内容与标准问答库中的标准问题进行匹配,得到与用户问题内容匹配的预设数量个标准问答信息;召回模型是基于客服系统存储的历史用户问题内容和标准问答库中的标准问题组成的正样本对和负样本对,对目标神经网络模型进行迭代训练得到的;标准问答信息包括匹配的标准问题和相应的标准回复;基于用户意图,采用预先训练好的大模型,对预设数量个标准问答信息进行分析,得到各标准问答信息的输出概率;基于各标准问答信息的输出概率,获取用户问题内容的回复结果。该方法通过搭建算法模型,提升了智能客服回复用户提问的准确率。本文档来自技高网...
【技术保护点】
1.一种基于大模型的检索增强方法,其特征在于,应用于智能客服系统中,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述正样本对包括与历史用户问题内容具有相同历史用户意图的任一历史用户问题内容和第一标准问题组成的样本对,以及具有相同历史用户意图的两个不同历史用户问题内容组成的样本对;
3.如权利要求2所述的方法,其特征在于,所述召回模型的骨干网络模型为Bert-like架构的模型或改进的LLM架构双塔模型。
4.如权利要求2所述的方法,其特征在于,所述召回模型的训练过程包括:
5.如权利要求4所述的方法,其特征在于,所述预设损失函数为带掩码的对比学习损失函数。
6.如权利要求1所述的方法,其特征在于,所述召回模型包括:输入层、模型层、表征聚合层、表征输出层、归一化层、匹配层和输出层;
7.如权利要求1所述的方法,其特征在于,基于所述各标准问答信息的输出概率,获取所述用户问题内容的回复结果;
8.一种基于大模型的检索增强装置,其特征在于,应用于智能客服系统中,所述装置包括:
9.
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。
...【技术特征摘要】
1.一种基于大模型的检索增强方法,其特征在于,应用于智能客服系统中,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述正样本对包括与历史用户问题内容具有相同历史用户意图的任一历史用户问题内容和第一标准问题组成的样本对,以及具有相同历史用户意图的两个不同历史用户问题内容组成的样本对;
3.如权利要求2所述的方法,其特征在于,所述召回模型的骨干网络模型为bert-like架构的模型或改进的llm架构双塔模型。
4.如权利要求2所述的方法,其特征在于,所述召回模型的训练过程包括:
5.如权利要求4所述的方法,其特征在于,所述预设损失函数为带掩码的对比学习损失函数。
6.如权利...
【专利技术属性】
技术研发人员:周源,
申请(专利权)人:智者四海北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。