奖励模型处理方法、电子设备、介质和计算机程序产品技术

技术编号:30425344 阅读:25 留言:0更新日期:2021-10-24 16:57
提供了奖励模型处理方法、电子设备、介质和计算机程序产品。处理方法可以包括:获取多轮次样本对话,每轮次样本对话包括样本问句以及对应的样本答句;利用判别器模型构造奖励模型,基于每轮次样本对话,迭代地对生成器模型和判别器模型进行训练,直至两个模型满足预设平衡条件;其中,每轮次样本对话对应于一次训练回合,在每次训练回合中:利用生成器模型基于当前和先前轮次样本对话生成伪样本对话,伪样本对话包括当前轮次样本对话中的样本问句以及对应的预测答句;利用判别器模型基于当前、先前轮次样本对话和伪样本对话生成判别结果;以及基于判别结果调整生成器模型的参数以及基于生成器模型生成的伪样本对话调整判别器模型的参数。器模型的参数。器模型的参数。

【技术实现步骤摘要】
奖励模型处理方法、电子设备、介质和计算机程序产品


[0001]本公开涉及人工智能
,具体而言,本公开涉及一种任务型对话系统中的奖励模型的处理方法、电子设备以及计算机可读存储介质。

技术介绍

[0002]随着信息技术的发展,互联网技术随之发展,用户经常需要通过互联网查询各种信息,以获得相应的答案,因此,任务导向型对话系统(也称为任务型对话系统)变得日益流行,其是一种可以完成人类要求的具体任务的对话系统,在实际当中有着非常广泛的应用,能够完成人类的基本所需,例如订机票、酒店等等,这大大减少了人力资源的使用。
[0003]在任务导向型对话中,主要是通过强化学习模型来针对用户输入预测输出,而对于强化学习模型需要根据奖励模型进行训练。当前基于强化学习的对话系统需要人工精心设计的奖励模型,强化学习所需要的训练时间长,训练步数多,并且还存在奖励稀疏的问题。此外,随着对系统处理跨多个领域的复杂目标的需求不断增长,处理现实任务的复杂性对于这种人工设计的奖励模型而言是无法承受的,从而影响强化学习的学习效果以及模型预测的准确率,进而使得基于强化学习的对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种任务型对话系统中的奖励模型的处理方法,包括:获取多轮次样本对话,每轮次样本对话包括样本问句以及对应的样本答句;以及利用判别器模型构造所述奖励模型,基于所述多轮次样本对话中的每轮次样本对话,迭代地对生成器模型和判别器模型进行训练,直至所述生成器模型和所述判别器模型满足预设平衡条件;其中,每轮次样本对话对应于一次训练回合,在每次训练回合中,利用所述生成器模型基于当前轮次样本对话和当前轮次之前的先前轮次样本对话生成伪样本对话,所述伪样本对话包括所述当前轮次样本对话中的样本问句以及对应的预测答句;利用所述判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果;以及基于所述判别结果调整所述生成器模型的参数以及基于生成器模型生成的伪样本对话调整所述判别器模型的参数。2.根据权利要求1所述的处理方法,其中,所述样本对话被编码为具有状态和动作的特征表示,其中状态与指示所述样本问句填充到各个预设语义槽的槽值的概率的置信度相关,并且所述动作与所述样本答句所涉及的行为相关。3.根据权利要求2所述的处理方法,其中,利用生成器模型基于当前轮次样本对话和先前轮次样本对话生成伪样本对话,包括:对于所述先前轮次样本对话中的第一轮次对话,对所述第一轮次对话的特征表示进行特征提取,以得到所述第一轮次对话的特征向量;对于所述先前轮次样本对话中除第一轮次对话之外的其他每一轮次对话,对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取,以得到综合特征向量,作为所述轮次对话的特征向量;以及基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示中的样本问句对应的状态,生成与所述当前轮次样本对话的样本问句的状态对应的预测动作,基于所述预测动作生成第一预测答句,并且将所述样本问句以及所述预测答句作为伪样本对话。4.根据权利要求2所述的处理方法,其中,利用判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果,包括:对于所述先前轮次样本对话中的第一轮次对话,对所述第一轮次对话的特征表示进行特征提取,以得到所述第一轮次对话的特征向量;对于所述先前轮次样本对话中的其他每一轮次对话,对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取,以得到综合特征向量,作为所述轮次对话的特征向量;以及基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示,生成第一特征向量;基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述伪样本对话的特征表示,生成第二特征向量;基于所述第一特征向量和所述第二特征向量确定所述伪样本对话为真的概率,作为判
别结果。5.根据权利要求1-3任一项所述的处理方法,其中,基于所述判别结果调整所述生成器模型的参数包括:在每次训练回合中,固定所述判别器模型的参数;以及迭代地执行以下操作,直至所述伪样本对话满足预设条件:根据所述判别器模型生成的判别结果以及所述当前轮次样本对话与所述伪样本对话的差异,调整所述生...

【专利技术属性】
技术研发人员:侯政旭刘亚飞赵瑞辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1