System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 智能体的控制方法、装置、设备及存储介质制造方法及图纸_技高网

智能体的控制方法、装置、设备及存储介质制造方法及图纸

技术编号:40347575 阅读:4 留言:0更新日期:2024-02-09 14:32
一种智能体的控制方法、装置、设备及存储介质,属于人工智能技术领域。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括:获取真实环境中的N个智能体分别对应的状态信息和在线信息;通过神经网络模型根据所述N个智能体分别对应的状态信息和在线信息,生成所述N个智能体分别对应的动作信息;根据所述第一智能体对应的动作信息,对所述第一智能体进行控制。上述方法,由于神经网络模型的输入为智能体的状态信息和在线信息,因此该模型能够灵活地对变数量的多智能体进行控制,解决了只基于固定数量的智能体来训练模型带来的泛化性差的问题。

【技术实现步骤摘要】

本申请涉及人工智能,特别涉及一种智能体的控制方法、装置、设备及存储介质


技术介绍

0、技术背景

1、智能体的控制应用于各种场景中,涉及地面、空中、水下和外太空等场景。例如,在工业领域,智能体的控制可以应用于仓储物流搬运、工厂不同工位物料运输、大型零件加工或者焊接、长距离物体检测抓取等场景,旨在提高工作效率,减少人力成本,以及减少工作的危险。

2、在研究智能体的控制方法时,在模型训练阶段经常采用mlp(multi-layerperceptron,多层感知机)结合rnn(recurrent neural network,循环神经网络)的网络模型。该网络模型通过mlp提取出每个智能体以及智能体所处环境的状态信息的特征表达,rnn根据该mlp提取出的特征表达进一步提取智能体之间的依赖关系特征,通过网络模型根据该依赖关系特征可以得到智能体对应的动作信息。该网络模型通过强化学习方式根据状态信息决策出智能体的动作信息,在训练过程中,以最大化长期回报为目标不断优化网络参数,最终得到训练后的网络模型。我们可以通过输入每一个智能体的状态信息,利用上述训练后的网络模型,得到每一个智能体的动作信息。

3、上述相关技术提供的使用mlp结合cnn网络结构训练网络模型,这种方法,由于网络模型是根据固定数量的智能体进行模型的训练,因此该模型不能在变数量的智能体控制中取得良好的表现,即模型的泛化能力差。因此当模型迁移到真实环境中,当智能体的数量发生改变,比如在执行一个任务过程中有智能体出现故障从而数量减少的时候,该模型的适用性差,会导致智能体控制效率低下的问题。


技术实现思路

1、本申请实施例提供了一种智能体的控制方法、装置、设备及存储介质。本申请实施例提供的技术方案如下:

2、根据本申请实施例的一个方面,提供了一种智能体的控制方法,所述方法包括:

3、获取真实环境中的n个智能体分别对应的状态信息和在线信息,所述智能体对应的状态信息用于指示所述智能体的状态以及所述智能体所处环境的状态,所述智能体对应的在线信息用于指示所述智能体是否在线,n为大于1的整数;

4、通过神经网络模型根据所述n个智能体分别对应的状态信息和在线信息,生成所述n个智能体分别对应的动作信息,所述智能体对应的动作信息用于指示所述智能体所需执行的动作,所述神经网络模型是采用强化学习方式进行训练得到的模型;

5、对于所述n个智能体中在线的第一智能体,根据所述第一智能体对应的动作信息,对所述第一智能体进行控制。

6、根据本申请实施例的一个方面,提供了一种神经网络模型的训练方法,所述方法包括:

7、获取仿真环境中的m个智能体在第一时间单元分别对应的状态信息,所述智能体对应的状态信息用于指示所述智能体的状态以及所述智能体所处环境的状态,m为大于1的整数;

8、确定所述m个智能体在所述第一时间单元分别对应的在线信息,所述智能体对应的在线信息用于指示所述智能体是否在线;

9、通过所述神经网络模型根据所述m个智能体在第一时间单元分别对应的状态信息和在线信息,生成所述m个智能体在第一时间单元分别对应的动作信息,所述智能体对应的动作信息用于指示所述智能体所需执行的动作;

10、在基于所述m个智能体在第一时间单元分别对应的动作信息,对所述m个智能体进行仿真控制之后,确定所述m个智能体在第二时间单元分别对应的状态信息和奖励信息,所述智能体对应的奖励信息是指执行所述智能体对应的动作信息之后获得的奖励分数,所述第二时间单元位于所述第一时间单元之后;

11、根据所述m个智能体在至少一个时间单元分别对应的状态信息、动作信息和奖励信息,计算得到所述神经网络模型的损失函数值;

12、基于所述损失函数值,对所述神经网络模型的参数进行调整,得到训练后的神经网络模型。

13、根据本申请实施例的一个方面,提供了一种智能体的控制装置,所述装置包括:

14、获取模块,用于获取真实环境中的n个智能体分别对应的状态信息和在线信息,所述智能体对应的状态信息用于指示所述智能体的状态以及所述智能体所处环境的状态,所述智能体对应的在线信息用于指示所述智能体是否在线,n为大于1的整数;

15、生成模块,用于通过神经网络模型根据所述n个智能体分别对应的状态信息和在线信息,生成所述n个智能体分别对应的动作信息,所述智能体对应的动作信息用于指示所述智能体所需执行的动作,所述神经网络模型是采用强化学习方式进行训练得到的模型;

16、控制模块,用于对于所述n个智能体中在线的第一智能体,根据所述第一智能体对应的动作信息,对所述第一智能体进行控制。

17、根据本申请实施例的一个方面,提供了一种神经网络模型的训练装置,所述方法包括:

18、获取模块,用于获取仿真环境中的m个智能体在第一时间单元分别对应的状态信息,所述智能体对应的状态信息用于指示所述智能体的状态以及所述智能体所处环境的状态,m为大于1的整数;

19、第一确定模块,用于确定所述m个智能体在所述第一时间单元分别对应的在线信息,所述智能体对应的在线信息用于指示所述智能体是否在线;

20、生成模块,用于通过所述神经网络模型根据所述m个智能体在第一时间单元分别对应的状态信息和在线信息,生成所述m个智能体在第一时间单元分别对应的动作信息,所述智能体对应的动作信息用于指示所述智能体所需执行的动作;

21、第二确定模块,用于在基于所述m个智能体在第一时间单元分别对应的动作信息,对所述m个智能体进行仿真控制之后,确定所述m个智能体在第二时间单元分别对应的状态信息和奖励信息,所述智能体对应的奖励信息是指执行所述智能体对应的动作信息之后获得的奖励分数,所述第二时间单元位于所述第一时间单元之后;

22、计算模块,用于根据所述m个智能体在至少一个时间单元分别对应的状态信息、动作信息和奖励信息,计算得到所述神经网络模型的损失函数值;

23、调参模块,用于基于所述损失函数值,对所述神经网络模型的参数进行调整,得到训练后的神经网络模型。

24、根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述智能体的控制方法或上述神经网络模型的训练方法。

25、根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述智能体的控制方法或上述神经网络模型的训练方法。

26、根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现上述智能体的控制方法或上述神经网络模型的训练方法。

本文档来自技高网...

【技术保护点】

1.一种智能体的控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括嵌入表示层、特征提取层和多层感知机;

3.根据权利要求2所述的方法,其特征在于,所述根据所述N个智能体分别对应的在线信息,对所述N个智能体中不在线的智能体进行屏蔽,保留在线的智能体对应的状态嵌入表示,得到所述特征提取层的输入信息,包括:

4.根据权利要求2所述的方法,其特征在于,所述通过所述特征提取层对所述输入信息进行处理,得到输出特征向量,包括:

5.根据权利要求2所述的方法,其特征在于,所述特征提取层是基于Transformer结构构建的。

6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:

7.一种神经网络模型的训练方法,其特征在于,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述神经网络模型包括嵌入表示层、特征提取层和多层感知机;

9.根据权利要求7所述的方法,其特征在于,所述根据所述M个智能体分别对应的在线信息,对所述M个智能体中不在线的智能体进行屏蔽,保留在线的智能体对应的状态嵌入表示,得到所述特征提取层的输入信息,包括:

10.根据权利要求7所述的方法,其特征在于,所述通过所述特征提取层对所述输入信息进行处理,得到输出特征向量,包括:

11.根据权利要求7所述的方法,其特征在于,所述特征提取层是基于Transformer结构构建的。

12.根据权利要求7至11任一项所述的方法,其特征在于,所述确定所述M个智能体在所述第一时间单元分别对应的在线信息,包括:

13.根据权利要求7至11任一项所述的方法,其特征在于,所述根据所述M个智能体在至少一个时间单元分别对应的状态信息、动作信息和奖励信息,计算得到所述神经网络模型的损失函数值,包括:

14.根据权利要求7至11任一项所述的方法,其特征在于,所述方法还包括:

15.一种智能体的控制装置,其特征在于,所述装置包括:

16.一种神经网络模型的训练装置,其特征在于,所述装置包括:

17.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的方法,或者如权利要求7至14任一项所述的方法。

18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至6任一项所述的方法,或者如权利要求7至14任一项所述的方法。

19.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如权利要求1至6任一项所述的方法,或者如权利要求7至14任一项所述的方法。

...

【技术特征摘要】

1.一种智能体的控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括嵌入表示层、特征提取层和多层感知机;

3.根据权利要求2所述的方法,其特征在于,所述根据所述n个智能体分别对应的在线信息,对所述n个智能体中不在线的智能体进行屏蔽,保留在线的智能体对应的状态嵌入表示,得到所述特征提取层的输入信息,包括:

4.根据权利要求2所述的方法,其特征在于,所述通过所述特征提取层对所述输入信息进行处理,得到输出特征向量,包括:

5.根据权利要求2所述的方法,其特征在于,所述特征提取层是基于transformer结构构建的。

6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:

7.一种神经网络模型的训练方法,其特征在于,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述神经网络模型包括嵌入表示层、特征提取层和多层感知机;

9.根据权利要求7所述的方法,其特征在于,所述根据所述m个智能体分别对应的在线信息,对所述m个智能体中不在线的智能体进行屏蔽,保留在线的智能体对应的状态嵌入表示,得到所述特征提取层的输入信息,包括:

10.根据权利要求7所述的方法,其特征在于,所述通过所述特征提取层对所述输入信息进行处理,得到输出特征向量,包括:

11.根据权利要求7所述的方法,其特征在于,所述特征提取层是基于...

【专利技术属性】
技术研发人员:张亦正
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1