System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向智能机器人离线视觉控制的强化学习系统技术方案_技高网

一种面向智能机器人离线视觉控制的强化学习系统技术方案

技术编号:41329318 阅读:5 留言:0更新日期:2024-05-13 15:07
本公开提供一种面向智能机器人离线视觉控制的强化学习系统,其包括:源域预训练模块,将源域的数据样本作为输入,源域预训练模块对源域智能体进行预训练处理,输出预训练完成的源域的世界模型、演员网络和评论员网络;域合作表征学习模块,将预设时刻的目标域智能体的视觉观测作为输入,输出经过对齐处理的目标域的隐空间表征和源域的隐空间表征;域合作行为学习模块,将源域的数据样本、目标域的数据样本、目标域智能体的视觉观测作为输入,输出目标域智能体的执行动作。通过本公开,采用易于交互的现成模拟器训练辅助的强化学习模型,为价值函数提供灵活的约束条件,缓解离散数据分布之外价值函数的高估问题,提高离线视觉环境下控制的准确性。

【技术实现步骤摘要】

本公开涉及计算机图像处理与计算机视觉,具体地,涉及一种面向智能机器人离线视觉控制的强化学习系统


技术介绍

1、机械臂控制应用于各种领域,例如工业生产、医疗手术、物流等领域。传统的机械臂控制方法通常基于预先定义的规则和模型,需要人工设计和调整控制策略,容易受限于固定的规则和模型,难以适应复杂和不确定的环境。

2、近年来,离线视觉强化学习逐渐成为机械臂控制领域的研究热点。离线视觉强化学习结合计算机视觉和强化学习技术,通过利用离线数据集训练机械臂,使其能够从视觉信息中学习和改进控制策略。

3、离线视觉强化学习的核心思想是利用视觉传感器(如摄像头)获取机械臂周围的图像信息,并将这些信息作为输入,结合强化学习算法来学习控制策略。通过分析图像特征和环境状态,机械臂可以学习到如何根据视觉信息做出正确的决策和动作,实现精准的控制。

4、离线视觉强化学习在机械臂控制中具有较多优势。首先,它能够利用大量的离线图像数据进行训练,提高学习的效率和鲁棒性。其次,通过视觉信息,机械臂可以感知和理解环境,实现更加智能性和适应性的控制。此外,离线视觉强化学习还减少了对精确模型和规则的依赖,提高了机械臂的自主性和泛化能力。

5、总而言之,离线视觉强化学习为机械臂控制带来了新的前景。通过将计算机视觉和强化学习相结合,机械臂可以从视觉信息中学习和改进控制策略,实现更加精准、智能和适应性强的操作。这一方法为机械臂在各个领域的应用提供了更大的潜力,推动了机械臂控制技术的发展。


技术实现思路b>

1、针对现有技术中的缺陷,本公开的目的是提供一种面向智能机器人离线视觉控制的强化学习系统。

2、为实现上述目的,根据本公开的一个方面,提供一种面向智能机器人离线视觉控制的强化学习系统,包括:

3、源域预训练模块,将源域的数据样本作为输入,所述源域预训练模块对源域智能体进行预训练处理,输出预训练完成的源域的世界模型、演员网络和评论员网络;

4、域合作表征学习模块,将预设时刻的目标域智能体的视觉观测作为输入,将所述目标域的隐空间表征向所述源域的隐空间表征进行对齐处理,输出经过对齐处理的所述目标域的隐空间表征和所述源域的隐空间表征;

5、域合作行为学习模块,将所述源域的数据样本、所述目标域的数据样本、所述目标域智能体的视觉观测作为输入,输出所述目标域智能体的执行动作。

6、可选地,所述域合作行为学习模块包括:

7、目标调节源域奖励预测模块,将所述源域的数据样本、所述目标域的数据样本输入所述目标调节源域奖励预测模块,输出混合监督的源域强化学习智能体;

8、最小-最大目标价值正则化模块,将所述目标域智能体的视觉观测输入所述最小-最大目标价值正则化模块,输出所述目标域智能体的执行动作。

9、可选地,所述源域的数据样本包括预设时刻的源域环境的视觉观测,源域智能体的执行动作,源域智能体的执行动作的奖励,下一时刻源域环境的视觉观测,所述目标域的数据样本包括预设时刻的目标域环境的视觉观测、目标域智能体的执行动作、目标域智能体的执行动作的奖励、下一时刻目标域环境的视觉观测。

10、可选地,所述源域预训练模块包括:

11、源域的世界模型预训练模块,采用所述源域的数据样本和预设的强化学习方法对所述源域的世界模型进行预训练处理,输出所述预训练完成的源域的世界模型;

12、隐想象学习行为模块,采用所述预训练完成的源域的世界模型预测未来的轨迹,对源域的演员网络和源域的评论员网络进行训练处理,输出训练完成的所述源域的演员网络和所述源域的评论员网络。

13、可选地,所述将所述目标域的隐空间表征向所述源域的隐空间表征进行对齐处理,包括:

14、将所述预设时刻的目标域智能体的视觉观测分别输入源域编码器和目标域编码器,所述源域编码器输出所述源域的隐空间表征,所述目标域编码器输出所述目标域的隐空间表征;

15、在所述目标域的世界模型的损失函数中加入域kl损失;

16、采用加入域kl损失的所述目标域的世界模型的损失函数对所述目标域的隐空间表征向所述源域的隐空间表征进行对齐。

17、可选地,所述目标域的世界模型的损失函数包括:

18、

19、其中,表示图像对数损失,表示奖励对数损失,表示折扣对数损失,表示kl损失,表示域kl损失,β1表示第一超参数,β2表示第二超参数,sg(·)表示不传递梯度,g(·)表示softmax操作。

20、可选地,所述目标调节源域奖励预测模块还采用在线的源域的数据样本、离线的目标域的数据样本对源域的奖励预测器进行混合监督训练。

21、可选地,所述目标调节源域奖励预测模块还采用在线的源域的数据样本、离线的目标域的数据样本对源域的奖励预测器进行混合监督训练,包括:

22、将所述离线的目标域的数据样本中采样的所述目标域的视觉观测输入所述源域的奖励预测器,输出预测的源域奖励,并采用最大似然估计的方式优化源域的奖励预测器的损失函数。

23、可选地,所述最小-最大目标价值正则化模块采用所述源域的评论员网络确定价值函数,并在所述源域的评论员网络的损失函数中加入预设的正则化项,将所述源域的评论员网络和目标域的评论员网络的之间的价值函数的最大值最小化。

24、可选地,所述世界模型包括循环模块、编码模块、表征模块、奖励模块、转移模块、折扣模块、观测模块。

25、与现有技术相比,本公开实施例具有如下至少一种有益效果:

26、通过上述技术方案,采用现成的、易于交互的视觉控制模拟器训练基于模型的强化学习智能体,为价值函数提供灵活的约束条件,减少价值高估的问题,同时保持探索具有潜在优势的行动的能力;并且,采用在线的源域进行辅助训练,缓解表征学习的过拟合问题,增加离线数据之外的可观测数据,产生更具有通用性的隐状态表征;通过域合作表征学习模块和域合作行为学习模块,使得智能体在目标域中作出更具探索性的决策,并实现精准控制,在复杂的视觉控制任务中表现出色,具有广泛的应用前景与价值。

本文档来自技高网...

【技术保护点】

1.一种面向智能机器人离线视觉控制的强化学习系统,其特征在于,包括:

2.根据权利要求1所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述域合作行为学习模块包括:

3.根据权利要求1所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述源域的数据样本包括预设时刻的源域环境的视觉观测,源域智能体的执行动作,源域智能体的执行动作的奖励,下一时刻源域环境的视觉观测,所述目标域的数据样本包括预设时刻的目标域环境的视觉观测、目标域智能体的执行动作、目标域智能体的执行动作的奖励、下一时刻目标域环境的视觉观测。

4.根据权利要求3所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述源域预训练模块包括:

5.根据权利要求1所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述将所述目标域的隐空间表征向所述源域的隐空间表征进行对齐处理,包括:

6.根据权利要求5所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述目标域的世界模型的损失函数包括:

7.根据权利要求2所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述目标调节源域奖励预测模块还采用在线的源域的数据样本、离线的目标域的数据样本对源域的奖励预测器进行混合监督训练。

8.根据权利要求7所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述目标调节源域奖励预测模块还采用在线的源域的数据样本、离线的目标域的数据样本对源域的奖励预测器进行混合监督训练,包括:

9.根据权利要求2所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述最小-最大目标价值正则化模块采用所述源域的评论员网络确定价值函数,并在所述源域的评论员网络的损失函数中加入预设的正则化项,将所述源域的评论员网络和目标域的评论员网络的之间的价值函数的最大值最小化。

10.根据权利要求1所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述世界模型包括循环模块、编码模块、表征模块、奖励模块、转移模块、折扣模块、观测模块。

...

【技术特征摘要】

1.一种面向智能机器人离线视觉控制的强化学习系统,其特征在于,包括:

2.根据权利要求1所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述域合作行为学习模块包括:

3.根据权利要求1所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述源域的数据样本包括预设时刻的源域环境的视觉观测,源域智能体的执行动作,源域智能体的执行动作的奖励,下一时刻源域环境的视觉观测,所述目标域的数据样本包括预设时刻的目标域环境的视觉观测、目标域智能体的执行动作、目标域智能体的执行动作的奖励、下一时刻目标域环境的视觉观测。

4.根据权利要求3所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述源域预训练模块包括:

5.根据权利要求1所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述将所述目标域的隐空间表征向所述源域的隐空间表征进行对齐处理,包括:

6.根据权利要求5所述的面向智能机器人离线视觉控制的强化学习系统,其特征在于,所述...

【专利技术属性】
技术研发人员:王韫博杨小康王琦
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1