基于约束性模型的深度强化学习机械臂运动规划方法、系统和存储介质技术方案

技术编号:41568196 阅读:24 留言:0更新日期:2024-06-06 23:49
本发明专利技术提供基于约束性模型的深度强化学习机械臂运动规划方法、系统和存储介质,该方法包括:S1、采集初始的真实环境状态信息;基于深度强化学习算法采取策略,执行动作;采集执行动作后的真实环境状态信息,获得奖励信号;S2、将初始的和执行动作后的真实环境状态信息、动作信息和奖励信号组成一条轨迹并存储于经验池;S3、抽取一批转移元组,构建并训练动力学环境模型;S4、机械臂与动力学环境模型交互,生成虚拟未来轨迹;在虚拟未来轨迹上,满足约束条件的虚拟目标用于重新标记历史转移元组的期望目标;S5、将重新标记期望目标后的历史转移元组,用于更新深度强化学习算法;该方法有利于提高深度强化学习算法的样本利用率与训练速度。

【技术实现步骤摘要】

本专利技术涉及机械臂控制,特别是涉及基于约束性模型的深度强化学习机械臂运动规划方法、系统和存储介质


技术介绍

1、传统的机械臂运动规划方法通常基于预定义的轨迹或规则进行设计,这种方法能够通过简单的数学模型或者规则表达,具有简单易实现的优点。然而,这种往往缺乏适应性和灵活性。具体来说,首先,在动态任务下的局限性;由于预定义的轨迹或规则是固定的,无法适应动态任务的变化;当面临未知的障碍物、不确定的工件位置或动态的任务需求时,传统的机械臂运动规划方法无法做出及时的调整和适应。其次,在复杂环境下的局限性;在复杂的工作空间中,例如狭窄的空间、不规则形状的工件等情况下,传统的机械臂运动规划方法往往难以生成合适的运动轨迹。同时,由于缺乏对环境的感知和认知能力,这种方法容易导致碰撞、摩擦等问题,影响机械臂的安全性和运动效果。上述缺陷是本领域技术人员期待克服的。


技术实现思路

1、本专利技术的目的在于克服现有技术中的上述缺陷,本专利技术第一方面提供了一种基于约束性模型的深度强化学习机械臂运动规划方法。p>

2、基于本本文档来自技高网...

【技术保护点】

1.基于约束性模型的深度强化学习机械臂运动规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于约束性模型的深度强化学习机械臂运动规划方法,其特征在于,所述机械臂末端执行器的信息包括机械臂末端执行器的坐标、角速度、线速度和夹爪打开状态;所述被操作物体的信息包括被操作物体的坐标、角速度和线速度;所述期望目标的位置信息为需要机械臂末端执行器或者被操作物体达到的三维坐标。

3.根据权利要求1所述的基于约束性模型的深度强化学习机械臂运动规划方法,其特征在于,所述步骤S1中采用的深度强化学习算法为DDPG(Deep Deterministic PolicyGra...

【技术特征摘要】

1.基于约束性模型的深度强化学习机械臂运动规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于约束性模型的深度强化学习机械臂运动规划方法,其特征在于,所述机械臂末端执行器的信息包括机械臂末端执行器的坐标、角速度、线速度和夹爪打开状态;所述被操作物体的信息包括被操作物体的坐标、角速度和线速度;所述期望目标的位置信息为需要机械臂末端执行器或者被操作物体达到的三维坐标。

3.根据权利要求1所述的基于约束性模型的深度强化学习机械臂运动规划方法,其特征在于,所述步骤s1中采用的深度强化学习算法为ddpg(deep deterministic policygradient)算法;将步骤s1中的真实环境状态信息输入ddpg算法中,输出机械臂末端执行器的坐标位移和夹爪的打开状态。

4.根据权利要求1所述的基于约束性模型的深度强化学习机械臂运动规划方法,其特征在于,所述步骤s1中,通过计算机械臂末端执行器或者被操作物体的三维坐标与期望目标的三维坐标之间的距离是否小于阈值,从而获得奖励信号;

5.根据权利要求1所述的基于约束性模型的深度强化学习机械臂运动规划方法,其特征在于,所述步骤s2中,经验池通过使用字典...

【专利技术属性】
技术研发人员:任斌黄煜铭何春红
申请(专利权)人:东莞理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1