当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于跨模态共享世界模型强化学习的机器人控制方法技术

技术编号:42408465 阅读:16 留言:0更新日期:2024-08-16 16:27
本发明专利技术公开一种基于跨模态共享世界模型强化学习的机器人控制方法,通过使用世界模型学习机器人‑环境交互的动态特性,并利用预测模型生成虚拟样本来增加训练数据的多样性,通过在模拟环境中进行多次迭代和优化,该方法使机器人智能系统能够更好地适应实际环境中的不确定性和变化。通过使用深度神经网络来建模环境的状态和动力系统,并结合强化学习算法进行训练和优化。本发明专利技术能够有效地应用于各种机器人行动决策问题领域,包括但不限于机器人行走、摆臂、奔跑等行为控制。它允许机器人智能控制系统根据不同情境和目标进行高效学习和策略优化,从而提高机器人控制策略的准确性和优化效率。

【技术实现步骤摘要】

本专利技术涉及跨模态场景下的机器人控制方法,具体是一种基于跨模态共享世界模型强化学习,通过将源模态和目标模态下的机器人轨迹数据同时对齐到隐空间中来训练机器人与环境交互的动力系统模型以进行机器人智能体策略优化的机器人控制方法。


技术介绍

1、在当今快速发展的
中,强化学习方法已经成为解决复杂问题的一种有效工具。例如,在机器人控制领域,强化学习技术已经被成功应用于机器人的自主导航、物体抓取和操作等任务中。机器人可以被看作是一个智能体,环境则包括其所处的物理环境和任务目标。强化学习通过奖励信号的引导,使机器人能够学习到在不同状态下采取的最优行动,从而实现自主决策和控制。

2、然而,尽管强化学习在机器人控制领域中取得了重要的突破,数据稀缺问题仍然是一个普遍存在的挑战,这限制了其应用范围和效果,对强化学习在机器人控制领域的应用造成了一系列问题。这是因为在现实世界中的机器人模拟环境中,收集大量的样本数据可能是昂贵的或者时间耗费巨大的,因此如何高效利用过去已有的数据成为了上述问题的一个关键的解决方案。如何设计高效的强化学习算法框架以解决机器人控制决策方本文档来自技高网...

【技术保护点】

1.一种基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,确定已收集的数据集,数据集由当前机器人在执行任务的训练阶段时收集,不限定其轨迹数据中观测数据的具体形式,并确定当前任务的机器人观测数据空间和行为动作空间的任务关键要素。

3.根据权利要求1所述的基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,在模型初始化阶段,初始化处理源模态相关的所有神经网络的参数φsrc、处理目标模态相关的所有神经网络的参数φtgt、处理共享世界模型相关的所有神经网络...

【技术特征摘要】

1.一种基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,确定已收集的数据集,数据集由当前机器人在执行任务的训练阶段时收集,不限定其轨迹数据中观测数据的具体形式,并确定当前任务的机器人观测数据空间和行为动作空间的任务关键要素。

3.根据权利要求1所述的基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,在模型初始化阶段,初始化处理源模态相关的所有神经网络的参数φsrc、处理目标模态相关的所有神经网络的参数φtgt、处理共享世界模型相关的所有神经网络的参数φ、判别器相关神经网络参数ξd、隐式正则化预测器相关神经网络参数ψ和机器人控制策略相关的所有神经网络参数θ;初始化经验回放池dtgt;所有网络参数根据正态分布进行随机初始化。

4.根据权利要求1所述的基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,训练共享世界模型中,共享世界模型的基本损失函数由重构损失和动态损失两部分组成;使用φi表示与观测空间相关的神经网络,其中i={src,tgt};使用φ来表示共享世界模型的参数;对于观测空间重构损失函数:

5.根据权利要求4所述的基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,如果算法仅依赖基础损失函数,共享世界模型在学习源观测空间和目标观测空间的共享世界模型时可能存在最终无法成功对齐的问题,因此,除了使用基础损失函数外,训练共享世界模型还需要加入额外的损失函数;

6.根据权利要求5所述的基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,除了显式对齐正则化损失函数之外,需要使用隐式对齐正则化损失函数来辅助进行训练;具体做法是,使用预测器来预测正向转移动态和预测器来预测反向转移动态;正向预测器...

【专利技术属性】
技术研发人员:詹德川程典张韶威
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1