智能体的训练方法、交互方法及相应系统技术方案

技术编号：41408709 阅读：10 留言：0更新日期：2024-05-20 19:35

本公开提供了一种智能体的训练方法、交互方法及相应系统。适用于人机交互场景的智能体的训练方法包括：从所述智能体的策略空间采样多个策略作为本轮训练的测试策略；在人机交互任务环境中对各测试策略进行测试，得到所述各测试策略在m个测试任务上的测试结果；基于所述测试结果，计算用于评估所述各测试策略在各测试任务中的表现的客观评估数据；向用户输出所述测试结果，并接收所述用户对所述各测试策略在所述各测试任务中的表现的主观评估数据；基于所述客观评估数据和所述主观评估数据，更新所述智能体。根据本公开的示例性实施例，综合考虑人类的主观感受和智能体的客观能力完成智能体评估及训练，使训练得到的智能体能力强且被人类认可。

全部详细技术资料下载

【技术实现步骤摘要】

本公开总体说来涉及人工智能，更具体地讲，涉及一种智能体的训练方法、交互方法及相应系统。

技术介绍

1、评估是推进机器智能发展的关键驱动力。现有的智能体（博弈策略模型）评估方法大多通过智能体获得的客观得分进行评估。但在人机交互的场景中，智能体与人类之间存在信息交互，客观评估得分排名最高的智能体可能不是人类感受体验最好的智能体。因此，需要一种适于应用于人机交互场景的智能体的评估方式，以训练出能力强且受人类认可的智能体。

技术实现思路

1、本公开的示例性实施例在于提供一种智能体的训练方法、交互方法及相应系统，其面向人机交互应用场景，提出一种综合人类主观感受和智能体客观能力的智能体训练方法，以训练出能力强且受人类认可的智能体。

2、根据本公开实施例的第一方面，提供一种适用于人机交互场景的智能体的训练方法，所述训练方法包括：从所述智能体的策略空间采样多个策略作为本轮训练的测试策略，其中，所述策略空间包括n个策略，n为大于1的整数；在人机交互任务环境中对各测试策略进行测试，得到所述各测试策略在m个测试任务上的测试结果，m为大于0的整数；基于所述测试结果，计算用于评估所述各测试策略在各测试任务中的表现的客观评估数据；向用户输出所述测试结果，并接收所述用户对所述各测试策略在所述各测试任务中的表现的主观评估数据；基于所述客观评估数据和所述主观评估数据，更新所述智能体，并确定是否继续更新所述智能体；在确定停止继续更新所述智能体的情况下，将已完成更新的所述智能体作为最终训练好的目标智能体，所

3、可选地，基于所述客观评估数据和所述主观评估数据，更新所述智能体的步骤包括：基于所述客观评估数据和所述主观评估数据，生成反对称矩阵；基于所述反对称矩阵，计算所述智能体的损失函数；基于所述损失函数，更新向量r，其中，r为n维向量，r中的第i个元素表示第i个策略的综合能力评估结果；基于更新后的向量r，更新所述n个策略的排名，其中，策略的综合能力评估结果越好，策略的排名越高；其中，在所述目标智能体中，策略的排名越高，策略被选用的概率越高。

4、可选地，基于所述客观评估数据和所述主观评估数据，生成反对称矩阵的步骤包括：将所述客观评估数据转换成第一概率评估矩阵，并基于所述第一概率评估矩阵生成第一反对称矩阵；将所述主观评估数据转换成第二概率评估矩阵，并基于所述第二概率评估矩阵生成第二反对称矩阵；对所述第一反对称矩阵和所述第二反对称矩阵进行加权求和，得到所述反对称矩阵；

5、其中，所述第一概率评估矩阵中位于第i行第j列的元素表示第i个策略获得的客观评估数据不弱于第j个策略的概率，且；所述第二概率评估矩阵中位于第i行第j列的元素表示第i个策略获得的主观评估数据不弱于第j个策略的概率，且。

6、可选地，所述第一反对称矩阵中位于第i行第j列的元素；所述第二反对称矩阵中位于第i行第j列的元素。

7、可选地，所述客观评估数据为客观评估分数，所述主观评估数据为主观评估分数；

8、其中，，，

9、其中，，z的取值为1和2，表示第i个策略在第个测试任务中获得的客观评估分数，表示第j个策略在第个测试任务中获得的客观评估分数，表示第i个策略在第个测试任务中获得的主观评估分数，表示第j个策略在第个测试任务中获得的主观评估分数，为大于0且小于或等于m的整数。

10、可选地，基于所述反对称矩阵，计算所述智能体的损失函数的步骤包括：基于所述向量r上的组合梯度、所述反对称矩阵以及所述反对称矩阵的组合旋度的低秩近似，计算所述损失函数。

11、可选地，基于所述损失函数，更新向量r的步骤包括：基于所述损失函数，更新向量r和矩阵c；

12、其中，所述损失函数为：，其中，表示所述向量r上的组合梯度，表示所述反对称矩阵的组合旋度的低秩近似，，k为超参数。

13、根据本公开实施例的第二方面，提供一种适用于人机交互场景的智能体的交互方法，所述交互方法包括：从当前的人机交互任务环境中，获取用户传递的信息；从目标智能体的策略空间中选择目标策略；使用所述目标策略，基于所述信息做出决策；按照所述决策在所述人机交互任务环境中执行相应的动作，以改变所述人机交互任务环境向所述用户反馈信息；其中，所述目标智能体是通过执行如上所述的训练方法而训练得到的。

14、根据本公开实施例的第三方面，提供一种适用于人机交互场景的智能体的训练系统，所述训练系统包括：策略采样单元，被配置为从所述智能体的策略空间采样多个策略作为本轮训练的测试策略，其中，所述策略空间包括n个策略，n为大于1的整数；测试单元，被配置为在人机交互任务环境中对各测试策略进行测试，得到所述各测试策略在m个测试任务上的测试结果，m为大于0的整数；客观评估单元，被配置为基于所述测试结果，计算用于评估所述各测试策略在各测试任务中的表现的客观评估数据；主观评估单元，被配置为向用户输出所述测试结果，并接收所述用户对所述各测试策略在所述各测试任务中的表现的主观评估数据；更新单元，被配置为基于所述客观评估数据和所述主观评估数据，更新所述智能体，并确定是否继续更新所述智能体，其中，在确定停止继续更新所述智能体的情况下，将已完成更新的所述智能体作为最终训练好的目标智能体，所述目标智能体用于与人类进行信息交互；其中，在确定继续更新所述智能体的情况下，所述训练系统开始新一轮训练。

15、根据本公开实施例的第四方面，提供一种适用于人机交互场景的智能体的交互系统，所述交互系统包括：信息获取单元，被配置为从当前的人机交互任务环境中，获取用户传递的信息；策略选择单元，被配置为从目标智能体的策略空间中选择目标策略；决策单元，被配置为使用所述目标策略，基于所述信息做出决策；动作执行单元，被配置为按照所述决策在所述人机交互任务环境中执行相应的动作，以改变所述人机交互任务环境向所述用户反馈信息；其中，所述目标智能体是通过执行如上所述的训练方法而训练得到的。

16、根据本公开实施例的第五方面，提供一种存储指令的计算机可读存储介质，当所述指令由电子设备的处理器执行时，使得所述电子设备能够执行如上所述的训练方法和/或交互方法。

17、根据本公开实施例的第六方面，提供一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的训练方法和/或交互方法。

18、根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机可执行指令，所述计算机可执行指令被至少一个处理器执行时实现如上所述的训练方法和/或交互方法。

19、根据本公开的示例性实施例的智能体的训练方法、交互方法及相应系统，综合考虑人类的主观感受和智能体的客观本文档来自技高网...

【技术保护点】

1.一种适用于人机交互场景的智能体的训练方法，其特征在于，所述训练方法包括：

2.根据权利要求1所述的训练方法，其特征在于，基于所述客观评估数据和所述主观评估数据，更新所述智能体的步骤包括：

3.根据权利要求2所述的训练方法，其特征在于，基于所述客观评估数据和所述主观评估数据，生成反对称矩阵的步骤包括：

4.根据权利要求3所述的训练方法，其特征在于，

5.根据权利要求3所述的训练方法，其特征在于，所述客观评估数据为客观评估分数，所述主观评估数据为主观评估分数；

6.根据权利要求2所述的训练方法，其特征在于，基于所述反对称矩阵，计算所述智能体的损失函数的步骤包括：

7.根据权利要求6所述的训练方法，其特征在于，基于所述损失函数，更新向量r的步骤包括：基于所述损失函数，更新向量r和矩阵C；

8.一种适用于人机交互场景的智能体的交互方法，其特征在于，所述交互方法包括：

9.一种适用于人机交互场景的智能体的训练系统，其特征在于，所述训练系统包括：

10.一种适用于人机交互场景的智能

11.一种存储指令的计算机可读存储介质，其特征在于，当所述指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中的任一权利要求所述的训练方法和/或如权利要求8所述的交互方法。

12.一种电子设备，其特征在于，所述电子设备包括：

13.一种计算机程序产品，包括计算机可执行指令，其特征在于，所述计算机可执行指令被至少一个处理器执行时实现如权利要求1至7中的任一权利要求所述的训练方法和/或如权利要求8所述的交互方法。

...

【技术特征摘要】

1.一种适用于人机交互场景的智能体的训练方法，其特征在于，所述训练方法包括：

2.根据权利要求1所述的训练方法，其特征在于，基于所述客观评估数据和所述主观评估数据，更新所述智能体的步骤包括：

3.根据权利要求2所述的训练方法，其特征在于，基于所述客观评估数据和所述主观评估数据，生成反对称矩阵的步骤包括：

4.根据权利要求3所述的训练方法，其特征在于，

5.根据权利要求3所述的训练方法，其特征在于，所述客观评估数据为客观评估分数，所述主观评估数据为主观评估分数；

6.根据权利要求2所述的训练方法，其特征在于，基于所述反对称矩阵，计算所述智能体的损失函数的步骤包括：

7.根据权利要求6所述的训练方法，其特征在于，基于所述损失函数，更新向量r的步骤包括：基于所述损失函数，更新向量...

【专利技术属性】
技术研发人员：倪晚成，赵晓楠，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人