System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于模拟用于执行任务的环境的方法和装置制造方法及图纸_技高网

用于模拟用于执行任务的环境的方法和装置制造方法及图纸

技术编号:41326250 阅读:8 留言:0更新日期:2024-05-13 15:03
本公开内容提供了一种用于模拟在其中执行任务的环境的模拟器。该模拟器包括:编码器,其被配置为将第一状态空间中的状态数据变换为第二状态空间中的状态数据,其中,状态数据对应于用于执行任务的环境的条件;常微分方程(ODE)神经网络(NN),其被配置为处理第二状态空间中的状态数据和动作数据以获得第二状态空间中的演进状态数据,其中,动作数据对应于在环境的条件下针对任务执行的动作;以及解码器,其被配置为将第二状态空间中的演进状态数据变换为第一状态空间中的演进状态数据。

【技术实现步骤摘要】
【国外来华专利技术】

概括而言,本公开内容的各方面涉及人工智能(ai),并且更具体地,本公开内容的各方面涉及模拟在其中执行任务的环境。


技术介绍

1、强化学习(reinforcement learning,rl)已用于许多现实世界应用中,诸如智能自动驾驶辅助、智能机器人运动、自动地控制机械装置、自动地控制计算机游戏等。

2、作为一种rl,无模型强化学习(mfrl)可以用于完成复杂任务。然而,mfrl方法通常是数据低效的,因为这些mfrl方法通常需要大量与环境的交互以便训练用于在环境中执行任务的代理,这使得代理的训练过程由于收集训练数据的困难而受到挑战。

3、mfrl的问题可以通过基于模型的强化学习(mbrl)来解决。mbrl方法采用世界模型来表征环境并进行规划以生成模拟数据。通常,mbrl可以通过使用来自世界模型的模拟数据来减轻mfrl对大量真实数据的要求,其中获取大量真实数据可能是昂贵的。

4、然而,mbrl通常在训练世界模型时遭受高样本复杂性,尤其对于复杂的环境。并且学习世界模型的高样本复杂性限制了mbrl的样本效率。


技术实现思路

1、为了提高mbrl的样本效率,本公开内容提出了一种新颖的环境模拟器,其可以用于mbrl中以具有提高的样本效率。

2、根据一个实施例,提供了一种用于模拟在其中执行任务的环境的模拟器。所述模拟器包括:编码器,其被配置为将第一状态空间中的状态数据变换为第二状态空间中的状态数据,其中,所述状态数据对应于用于执行所述任务的所述环境的条件;常微分方程(ode)神经网络(nn),其被配置为处理所述第二状态空间中的所述状态数据和动作数据以获得所述第二状态空间中的演进状态数据,其中,所述动作数据对应于在所述环境的所述条件下针对所述任务执行的动作;解码器,其被配置为将所述第二状态空间中的演进状态数据变换为所述第一状态空间中的演进状态数据。

3、根据一个实施例,提供了一种用于模拟在其中执行任务的环境的方法。所述方法包括:通过使用编码器来将第一状态空间中的状态数据变换为第二状态空间中的状态数据,其中,所述状态数据对应于用于执行所述任务的所述环境的条件;通过常微分方程(ode)神经网络(nn)来处理所述第二状态空间中的所述状态数据和动作数据以获得所述第二状态空间中的演进状态数据,其中,所述动作数据对应于在所述环境的所述条件下针对所述任务执行的动作;以及通过解码器来将所述第二状态空间中的演进状态数据变换为所述第一状态空间中的演进状态数据。

4、根据一个实施例,提供了一种用于训练用于模拟在其中执行任务的环境的模拟器的方法。所述方法包括:从演示数据获得第一状态空间中的状态数据、所述第一状态空间中的演进状态数据以及动作数据,其中,所述状态数据对应于所述环境的条件,所述动作数据对应于在所述环境的所述条件下针对所述任务执行的动作,并且所述演进状态数据对应于由所述动作导致的所述环境的演进条件;通过使用编码器来将所述第一状态空间中的状态数据变换为第二状态空间中的状态数据;通过使用解码器来将所述第二状态空间中的状态数据变换为所述第一状态空间中的重构状态数据;基于所述第一状态空间中的状态数据和所述第一状态空间中的所述重构状态数据来确定第一损失;通过常微分方程(ode)神经网络(nn)来处理所述第二状态空间中的状态数据和所述动作数据,以获得所述第二状态空间中的预测的演进状态数据;通过所述解码器来将所述第二状态空间中的所述预测的演进状态数据变换为所述第一状态空间中的预测的演进状态数据;基于所述第一状态空间中的预测的演进状态数据和所述第一状态空间中的所述演进状态数据来确定第二损失;以及基于所述第一损失和所述第二损失来优化包括所述编码器、所述ode nn和所述解码器的所述模拟器。

5、根据一个实施例,提供了一种用于训练用于在环境中执行任务的神经网络(nn)模型的方法。所述方法包括:使用根据本公开内容的任何实施例的模拟器来获得模拟演示数据,其中,所述模拟演示数据包括状态和动作的轨迹;基于所述模拟演示数据来优化所述nn模型。

6、根据一个实施例,提供了一种用于训练用于自主地驾驶车辆或自主地控制机械装置的神经网络(nn)模型的方法。所述方法包括:使用根据本公开内容的任何实施例的模拟器来获得模拟演示数据,其中,所述模拟演示数据包括状态和动作的轨迹并且表示用于驾驶所述车辆或控制所述机械装置的演示者的行为;以及基于所述模拟演示数据来优化所述nn模型。

7、根据一个实施例,提供了一种计算机系统,其包括一个或多个处理器和存储计算机可执行指令的一个或多个存储设备,所述计算机可执行指令在被执行时使得所述一个或多个处理器执行如上所述的方法的操作以及执行根据本公开内容的各方面的方法的操作。

8、根据一个实施例,提供了一个或多个存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在被执行时使得一个或多个处理器执行如上所述的方法的操作以及执行根据本公开内容的各方面的方法的操作。

9、根据一个实施例,提供了一种包括计算机可执行指令的计算机程序产品,所述计算机可执行指令在被执行时使得一个或多个处理器执行如上所述的方法的操作以及执行根据本公开内容的各方面的方法的操作。

10、通过使用环境模拟器,对于基本上是动态系统的环境,可以采用ode nn来求解常微分方程,常微分方程用于公式化哈密顿力学中的物理环境的动力学。因此,包括ode nn的环境模拟器快速收敛,因为ode nn可以以遵循描述动态系统的物理方程的方式来学习环境的动态系统。这带来在学习环境模拟器和学习用于在环境中执行任务的代理时的更高的样本效率。在下文的描述中解释了其他优点和增强。

本文档来自技高网...

【技术保护点】

1.一种用于模拟在其中执行任务的环境的模拟器,包括:

2.根据权利要求1所述的模拟器,其中,所述第二状态空间中的演进状态数据是基于对通过所述ODE NN获得的所述第二状态空间中的演进状态数据的一阶微分的预测来获得的。

3.根据权利要求1所述的模拟器,还包括:额外解码器,其被配置为处理所述第二状态空间中的状态数据和所述动作数据以获得奖励数据。

4.根据权利要求1所述的模拟器,其中,所述第一状态空间具有第一数量的维度,并且所述第二状态空间具有第二数量的维度,并且其中,所述第一数量大于所述第二数量。

5.根据权利要求4所述的模拟器,其中,所述第二状态空间的维度的所述第二数量对应于用于描述所述环境的动态系统的参数的数量。

6.根据权利要求5所述的模拟器,其中,用于描述所述环境的所述动态系统的所述参数的数量包括坐标的数量和对应动量的数量。

7.根据权利要求1所述的模拟器,其中,所述任务是自主地控制车辆或自主地控制机械装置。

8.一种用于模拟在其中执行任务的环境的方法,包括:

9.根据权利要求8所述的方法,其中,所述第二状态空间中的演进状态数据是基于对通过所述ODE NN获得的所述第二状态空间中的演进状态数据的一阶微分的预测来获得的。

10.根据权利要求8所述的方法,还包括:通过额外解码器来处理所述第二状态空间中的状态数据和所述动作数据以获得奖励数据。

11.根据权利要求8所述的方法,其中,所述第一状态空间具有第一数量的维度,并且所述第二状态空间具有第二数量的维度,并且其中,所述第一数量大于所述第二数量。

12.根据权利要求11所述的方法,其中,所述第二状态空间的维度的所述第二数量对应于用于描述所述环境的动态系统的参数的数量。

13.根据权利要求12所述的方法,其中,用于描述所述环境的所述动态系统的所述参数的数量包括坐标的数量和对应动量的数量。

14.根据权利要求8所述的方法,其中,所述任务是自主地控制车辆或自主地控制机械装置。

15.一种用于训练用于模拟在其中执行任务的环境的模拟器的方法,包括:

16.根据权利要求15所述的方法,还包括:

17.一种用于训练用于在环境中执行任务的神经网络(NN)模型的方法,包括:

18.一种用于训练用于自主地驾驶车辆或自主地控制机械装置的神经网络(NN)模型的方法,包括:

19.一种计算机系统,包括:

20.一种或多种存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在被执行时使得一个或多个处理器执行根据权利要求8-18中的一项所述的方法的操作。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于模拟在其中执行任务的环境的模拟器,包括:

2.根据权利要求1所述的模拟器,其中,所述第二状态空间中的演进状态数据是基于对通过所述ode nn获得的所述第二状态空间中的演进状态数据的一阶微分的预测来获得的。

3.根据权利要求1所述的模拟器,还包括:额外解码器,其被配置为处理所述第二状态空间中的状态数据和所述动作数据以获得奖励数据。

4.根据权利要求1所述的模拟器,其中,所述第一状态空间具有第一数量的维度,并且所述第二状态空间具有第二数量的维度,并且其中,所述第一数量大于所述第二数量。

5.根据权利要求4所述的模拟器,其中,所述第二状态空间的维度的所述第二数量对应于用于描述所述环境的动态系统的参数的数量。

6.根据权利要求5所述的模拟器,其中,用于描述所述环境的所述动态系统的所述参数的数量包括坐标的数量和对应动量的数量。

7.根据权利要求1所述的模拟器,其中,所述任务是自主地控制车辆或自主地控制机械装置。

8.一种用于模拟在其中执行任务的环境的方法,包括:

9.根据权利要求8所述的方法,其中,所述第二状态空间中的演进状态数据是基于对通过所述ode nn获得的所述第二状态空间中的演进状态数据的一阶微分的预测来获得的。

10.根据权利要求8所述的...

【专利技术属性】
技术研发人员:冯耀江禹宏苏航闫栋朱军程泽
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1