基于强化学习策略的人机交互训练方法及装置制造方法及图纸

技术编号:33281363 阅读:13 留言:0更新日期:2022-04-30 23:42
本申请提供一种基于强化学习策略的人机交互训练方法及装置,该方法包括:获取以目标样本集为训练样本训练得到的第一模型;所述目标样本集包括多个交互过程的交互内容;构建第二模型,使用所述第二模型与所述第一模型模拟即时通信交互过程;在所述第二模型与所述第一模型的交互过程中,所述第二模型输出回复内容,基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度,调整所述第二模型的参数;将参数优化后的第二模型确定为目标模型;其中,所述评价指标用于指示所述交互过程能够实现预设目标的概率。程能够实现预设目标的概率。程能够实现预设目标的概率。

【技术实现步骤摘要】
基于强化学习策略的人机交互训练方法及装置


[0001]本申请涉及人机交互领域,尤其涉及一种基于强化学习策略的人机交互训练方法及装置。

技术介绍

[0002]为了提高对用户的服务质量以及降低人工服务的成本,平台在向用户提供人工服务之前,均设置了聊天机器人。聊天机器人可以为用户提供必要的基础服务,并解决用户的一部分问题,当聊天机器人无法解决用户提出的问题,或者已完成当前阶段的沟通,需要转向下一阶段沟通时,才会转向人工服务。
[0003]在相关技术中,大部分聊天机器人均使用任务型的管道模型,管道模型可以解决用户提出的问题,并针对该问题向用户进行询问,以获取解决该问题的必要信息。但对于房产领域,要求聊天机器人能够引导用户转委托,管道模型并不是针对实现特定目的而训练的模型,也就不能提高用户转委托的概率。因此,对于房产领域以达到特定目的而使用的聊天机器人,任务型的管道模型并不能很好的适用。

技术实现思路

[0004]本申请的目的是提供一种基于强化学习策略的人机交互训练方法及装置,用于生成一种为了达到特定目标而使用的聊天机器人。
[0005]本申请提供一种基于强化学习策略的人机交互训练方法,包括:
[0006]获取以目标样本集为训练样本训练得到的第一模型;所述目标样本集包括多个交互过程的交互内容;构建第二模型,使用所述第二模型与所述第一模型模拟即时通信交互过程;在所述第二模型与所述第一模型的交互过程中,所述第二模型输出回复内容,基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度,调整所述第二模型的参数;将参数优化后的第二模型确定为目标模型;其中,所述评价指标用于指示所述交互过程能够实现预设目标的概率。
[0007]可选地,所述获取以目标样本集为训练样本训练得到的第一模型,包括:使用所述目标样本集作为训练样本训练第一GPT模型,并得到所述第一模型;其中,所述第一GPT模型的训练样本中的每个样本均包括类别信息;所述类别信息用于对样本的交互内容进行分类。
[0008]可选地,所述构建第二模型,使用所述第二模型与所述第一模型模拟即时通信交互过程,包括:构建所述第二模型,并通过初始交互内容引导所述第二模型与所述第一模型基于所述初始交互内容开始进行交互;将所述第二模型输出的回复内容作为所述第一模型的输入,并将所述第一模型输出的内容作为所述第二模型的输入,实现所述第二模型与所述第一模型的模拟即时通信交互。
[0009]可选地,所述第二模型为排序模型;所述在所述第二模型与所述第一模型的交互过程中,所述第二模型输出回复内容,基于所述第二模型输出的回复内容对所述交互过程
的评价指标的影响程度,调整所述第二模型的参数,包括:在所述排序模型与所述第一模型的模拟即时通信交互过程中,所述排序模型基于所述第一模型输出的第一内容,从候选回复集中筛选出与所述第一内容的上下文关联度最高的第一回复内容;从检索库中筛选出与当前交互过程对应的第一交互内容的相似度满足预设相似度的第二交互内容;所述第一交互内容包括所述第一回复内容;对第三交互内容中的每个交互内容进行特征提取,并将得到的每个交互内容的特征向量进行拼接,得到所述第三交互内容的特征值;所述第三交互内容包括:所述第一交互内容和所述第二交互内容;将所述特征值确定为第一回报函数的第一回报函数值,并基于所述第一回报函数值指示的所述排序模型输出的内容对所述评价指标的影响程度,调整所述排序模型的参数;其中,所述第一回报函数为基于所述排序模型构建的强化学习策略使用的回报函数。
[0010]可选地,所述构建第二模型,包括:使用所述目标样本集作为训练样本对第二GPT模型进行预训练,并得到所述第二模型;其中,所述第二GPT模型的训练样本中的每个样本均包括第一对象信息以及场景信息;所述第一对象信息用于指示样本的交互内容所对应的第一对象;所述场景信息用于指示所述样本的交互内容所属的应用场景。
[0011]可选地,所述在所述第二模型与所述第一模型的交互过程中,所述第二模型输出回复内容,基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度,调整所述第二模型的参数,包括:在所述第二GPT模型与所述第一模型的模拟即时通信交互过程中,将所述第一模型输出的内容作为所述第二GPT模型的输入,并得到所述第二GPT模型生成的第二回复内容;其中,所述第二回复内容包括第二对象信息;所述第二对象信息用于指示所述第二回复内容符合所述第二对象的语言特征。
[0012]可选地,所述在所述第二模型与所述第一模型的交互过程中,所述第二模型输出回复内容,基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度,调整所述第二模型的参数,包括:根据第二回报函数计算所述第二模型输出的内容对所述评价指标的影响程度,并基于所述影响程度调整所述第二模型的参数;其中,所述第二回报函数为基于所述第二GPT模型构建的强化学习策略使用的回报函数。
[0013]本申请还提供一种基于强化学习策略的人机交互训练装置,包括:
[0014]获取模块,用于获取以目标样本集为训练样本训练得到的第一模型;所述目标样本集包括多个交互过程的交互内容;构建模块,用于构建第二模型,使用所述第二模型与所述第一模型模拟即时通信交互过程;调整模块,用于在所述第二模型与所述第一模型的交互过程中,所述第二模型输出回复内容,基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度,调整所述第二模型的参数;确定模块,用于将参数优化后的第二模型确定为目标模型;其中,所述评价指标用于指示所述交互过程能够实现预设目标的概率。
[0015]可选地,所述获取模块,具体用于使用所述目标样本集作为训练样本训练第一GPT模型,并得到所述第一模型;其中,所述第一GPT模型的训练样本中的每个样本均包括类别信息;所述类别信息用于对样本的交互内容进行分类。
[0016]可选地,所述装置还包括:交互模块;所述构建模块,具体用于构建所述第二模型,并通过初始交互内容引导所述第二模型与所述第一模型基于所述初始交互内容开始进行交互;所述交互模块,用于将所述第二模型输出的回复内容作为所述第一模型的输入,并将
所述第一模型输出的内容作为所述第二模型的输入,实现所述第二模型与所述第一模型的模拟即时通信交互。
[0017]可选地,所述装置还包括:筛选模块;所述第二模型为排序模型;所述筛选模块,用于在所述排序模型与所述第一模型的模拟即时通信交互过程中,所述排序模型基于所述第一模型输出的第一内容,从候选回复集中筛选出与所述第一内容的上下文关联度最高的第一回复内容;所述筛选模块,还用于从检索库中筛选出与当前交互过程对应的第一交互内容的相似度满足预设相似度的第二交互内容;所述第一交互内容包括所述第一回复内容;所述调整模块,具体用于对第三交互内容中的每个交互内容进行特征提取,并将得到的每个交互内容的特征向量进行拼接,得到所述第三交互内容的特征值;所述第三交互内容包括:所述第一交互内容和所述第二交互内容;所述调整模块,具体还用于将所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习策略的人机交互训练方法,其特征在于,包括:获取以目标样本集为训练样本训练得到的第一模型;所述目标样本集包括多个交互过程的交互内容;构建第二模型,使用所述第二模型与所述第一模型模拟即时通信交互过程;在所述第二模型与所述第一模型的交互过程中,所述第二模型输出回复内容,基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度,调整所述第二模型的参数;将参数优化后的第二模型确定为目标模型;其中,所述评价指标用于指示所述交互过程能够实现预设目标的概率。2.根据权利要求1所述的方法,其特征在于,所述获取以目标样本集为训练样本训练得到的第一模型,包括:使用所述目标样本集作为训练样本训练第一GPT模型,并得到所述第一模型;其中,所述第一GPT模型的训练样本中的每个样本均包括类别信息;所述类别信息用于对样本的交互内容进行分类。3.根据权利要求1所述的方法,其特征在于,所述构建第二模型,使用所述第二模型与所述第一模型模拟即时通信交互过程,包括:构建所述第二模型,并通过初始交互内容引导所述第二模型与所述第一模型基于所述初始交互内容开始进行交互;将所述第二模型输出的回复内容作为所述第一模型的输入,并将所述第一模型输出的内容作为所述第二模型的输入,实现所述第二模型与所述第一模型的模拟即时通信交互。4.根据权利要求3所述的方法,其特征在于,所述第二模型为排序模型;所述在所述第二模型与所述第一模型的交互过程中,所述第二模型输出回复内容,基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度,调整所述第二模型的参数,包括:在所述排序模型与所述第一模型的模拟即时通信交互过程中,所述排序模型基于所述第一模型输出的第一内容,从候选回复集中筛选出与所述第一内容的上下文关联度最高的第一回复内容;从检索库中筛选出与当前交互过程对应的第一交互内容的相似度满足预设相似度的第二交互内容;所述第一交互内容包括所述第一回复内容;对第三交互内容中的每个交互内容进行特征提取,并将得到的每个交互内容的特征向量进行拼接,得到所述第三交互内容的特征值;所述第三交互内容包括:所述第一交互内容和所述第二交互内容;将所述特征值确定为第一回报函数的第一回报函数值,并基于所述第一回报函数值指示的所述排序模型输出的内容对所述评价指标的影响程度,调整所述排序模型的参数;其中,所述第一回报函数为基于所述排序模型构建的强化学习策略使用的回报函数。5.根据权利要求3所述的方法,其特征在于,所述构建...

【专利技术属性】
技术研发人员:王文彬冯伟
申请(专利权)人:贝壳找房网北京信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1