基于强化学习策略的人机交互训练方法及装置制造方法及图纸

技术编号：33281363 阅读：13 留言：0更新日期：2022-04-30 23:42

本申请提供一种基于强化学习策略的人机交互训练方法及装置，该方法包括：获取以目标样本集为训练样本训练得到的第一模型；所述目标样本集包括多个交互过程的交互内容；构建第二模型，使用所述第二模型与所述第一模型模拟即时通信交互过程；在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度，调整所述第二模型的参数；将参数优化后的第二模型确定为目标模型；其中，所述评价指标用于指示所述交互过程能够实现预设目标的概率。程能够实现预设目标的概率。程能够实现预设目标的概率。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习策略的人机交互训练方法及装置

[0001]本申请涉及人机交互领域，尤其涉及一种基于强化学习策略的人机交互训练方法及装置。

技术介绍

[0002]为了提高对用户的服务质量以及降低人工服务的成本，平台在向用户提供人工服务之前，均设置了聊天机器人。聊天机器人可以为用户提供必要的基础服务，并解决用户的一部分问题，当聊天机器人无法解决用户提出的问题，或者已完成当前阶段的沟通，需要转向下一阶段沟通时，才会转向人工服务。
[0003]在相关技术中，大部分聊天机器人均使用任务型的管道模型，管道模型可以解决用户提出的问题，并针对该问题向用户进行询问，以获取解决该问题的必要信息。但对于房产领域，要求聊天机器人能够引导用户转委托，管道模型并不是针对实现特定目的而训练的模型，也就不能提高用户转委托的概率。因此，对于房产领域以达到特定目的而使用的聊天机器人，任务型的管道模型并不能很好的适用。

技术实现思路

[0004]本申请的目的是提供一种基于强化学习策略的人机交互训练方法及装置，用于生成一种为了达到特定目标而使用的聊天机器人。
[0005]本申请提供一种基于强化学习策略的人机交互训练方法，包括：
[0006]获取以目标样本集为训练样本训练得到的第一模型；所述目标样本集包括多个交互过程的交互内容；构建第二模型，使用所述第二模型与所述第一模型模拟即时通信交互过程；在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习策略的人机交互训练方法，其特征在于，包括：获取以目标样本集为训练样本训练得到的第一模型；所述目标样本集包括多个交互过程的交互内容；构建第二模型，使用所述第二模型与所述第一模型模拟即时通信交互过程；在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度，调整所述第二模型的参数；将参数优化后的第二模型确定为目标模型；其中，所述评价指标用于指示所述交互过程能够实现预设目标的概率。2.根据权利要求1所述的方法，其特征在于，所述获取以目标样本集为训练样本训练得到的第一模型，包括：使用所述目标样本集作为训练样本训练第一GPT模型，并得到所述第一模型；其中，所述第一GPT模型的训练样本中的每个样本均包括类别信息；所述类别信息用于对样本的交互内容进行分类。3.根据权利要求1所述的方法，其特征在于，所述构建第二模型，使用所述第二模型与所述第一模型模拟即时通信交互过程，包括：构建所述第二模型，并通过初始交互内容引导所述第二模型与所述第一模型基于所述初始交互内容开始进行交互；将所述第二模型输出的回复内容作为所述第一模型的输入，并将所述第一模型输出的内容作为所述第二模型的输入，实现所述第二模型与所述第一模型的模拟即时通信交互。4.根据权利要求3所述的方法，其特征在于，所述第二模型为排序模型；所述在所述第二模型与所述第一模型的交互过程中，所述第二模型输出回复内容，基于所述第二模型输出的回复内容对所述交互过程的评价指标的影响程度，调整所述第二模型的参数，包括：在所述排序模型与所述第一模型的模拟即时通信交互过程中，所述排序模型基于所述第一模型输出的第一内容，从候选回复集中筛选出与所述第一内容的上下文关联度最高的第一回复内容；从检索库中筛选出与当前交互过程对应的第一交互内容的相似度满足预设相似度的第二交互内容；所述第一交互内容包括所述第一回复内容；对第三交互内容中的每个交互内容进行特征提取，并将得到的每个交互内容的特征向量进行拼接，得到所述第三交互内容的特征值；所述第三交互内容包括：所述第一交互内容和所述第二交互内容；将所述特征值确定为第一回报函数的第一回报函数值，并基于所述第一回报函数值指示的所述排序模型输出的内容对所述评价指标的影响程度，调整所述排序模型的参数；其中，所述第一回报函数为基于所述排序模型构建的强化学习策略使用的回报函数。5.根据权利要求3所述的方法，其特征在于，所述构建...

【专利技术属性】
技术研发人员：王文彬，冯伟，
申请(专利权)人：贝壳找房网北京信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人