用于模拟用于执行任务的环境的方法和装置制造方法及图纸

技术编号:41326250 阅读:34 留言:0更新日期:2024-05-13 15:03
本公开内容提供了一种用于模拟在其中执行任务的环境的模拟器。该模拟器包括:编码器,其被配置为将第一状态空间中的状态数据变换为第二状态空间中的状态数据,其中,状态数据对应于用于执行任务的环境的条件;常微分方程(ODE)神经网络(NN),其被配置为处理第二状态空间中的状态数据和动作数据以获得第二状态空间中的演进状态数据,其中,动作数据对应于在环境的条件下针对任务执行的动作;以及解码器,其被配置为将第二状态空间中的演进状态数据变换为第一状态空间中的演进状态数据。

【技术实现步骤摘要】
【国外来华专利技术】

概括而言,本公开内容的各方面涉及人工智能(ai),并且更具体地,本公开内容的各方面涉及模拟在其中执行任务的环境。


技术介绍

1、强化学习(reinforcement learning,rl)已用于许多现实世界应用中,诸如智能自动驾驶辅助、智能机器人运动、自动地控制机械装置、自动地控制计算机游戏等。

2、作为一种rl,无模型强化学习(mfrl)可以用于完成复杂任务。然而,mfrl方法通常是数据低效的,因为这些mfrl方法通常需要大量与环境的交互以便训练用于在环境中执行任务的代理,这使得代理的训练过程由于收集训练数据的困难而受到挑战。

3、mfrl的问题可以通过基于模型的强化学习(mbrl)来解决。mbrl方法采用世界模型来表征环境并进行规划以生成模拟数据。通常,mbrl可以通过使用来自世界模型的模拟数据来减轻mfrl对大量真实数据的要求,其中获取大量真实数据可能是昂贵的。

4、然而,mbrl通常在训练世界模型时遭受高样本复杂性,尤其对于复杂的环境。并且学习世界模型的高样本复杂性限制了mbrl的样本效率。


<本文档来自技高网...

【技术保护点】

1.一种用于模拟在其中执行任务的环境的模拟器,包括:

2.根据权利要求1所述的模拟器,其中,所述第二状态空间中的演进状态数据是基于对通过所述ODE NN获得的所述第二状态空间中的演进状态数据的一阶微分的预测来获得的。

3.根据权利要求1所述的模拟器,还包括:额外解码器,其被配置为处理所述第二状态空间中的状态数据和所述动作数据以获得奖励数据。

4.根据权利要求1所述的模拟器,其中,所述第一状态空间具有第一数量的维度,并且所述第二状态空间具有第二数量的维度,并且其中,所述第一数量大于所述第二数量。

5.根据权利要求4所述的模拟器,其中,所述第二...

【技术特征摘要】
【国外来华专利技术】

1.一种用于模拟在其中执行任务的环境的模拟器,包括:

2.根据权利要求1所述的模拟器,其中,所述第二状态空间中的演进状态数据是基于对通过所述ode nn获得的所述第二状态空间中的演进状态数据的一阶微分的预测来获得的。

3.根据权利要求1所述的模拟器,还包括:额外解码器,其被配置为处理所述第二状态空间中的状态数据和所述动作数据以获得奖励数据。

4.根据权利要求1所述的模拟器,其中,所述第一状态空间具有第一数量的维度,并且所述第二状态空间具有第二数量的维度,并且其中,所述第一数量大于所述第二数量。

5.根据权利要求4所述的模拟器,其中,所述第二状态空间的维度的所述第二数量对应于用于描述所述环境的动态系统的参数的数量。

6.根据权利要求5所述的模拟器,其中,用于描述所述环境的所述动态系统的所述参数的数量包括坐标的数量和对应动量的数量。

7.根据权利要求1所述的模拟器,其中,所述任务是自主地控制车辆或自主地控制机械装置。

8.一种用于模拟在其中执行任务的环境的方法,包括:

9.根据权利要求8所述的方法,其中,所述第二状态空间中的演进状态数据是基于对通过所述ode nn获得的所述第二状态空间中的演进状态数据的一阶微分的预测来获得的。

10.根据权利要求8所述的...

【专利技术属性】
技术研发人员:冯耀江禹宏苏航闫栋朱军程泽
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1