当前位置: 首页 > 专利查询>燕山大学专利>正文

基于深度强化学习的机械臂移动目标抓取优化训练方法技术

技术编号:41358793 阅读:33 留言:0更新日期:2024-05-20 10:09
本发明专利技术公开了基于深度强化学习的机械臂移动目标抓取优化训练方法,属于机械臂控制以及深度强化学习领域,包括将机械臂对移动目标抓取的问题建立成强化学习环境模型,利用视觉传感器获取移动目标当前的状态信息,将获得的状态信息作为神经网络的输入,输出可选动作的概率分布,并将状态动作转换元组存入经验池。使用具有优先级动态后视经验回放技术对经验池进行排序与扩充并对Actor‑Critic网络进行训练。通过连续的训练迭代,可以得到机械臂移动目标抓取的最优策略。本发明专利技术能够加机械臂移动目标抓取的训练速度,更快学到最优控制策,为实现更高级别的自动化控制提供了有力的工具。

【技术实现步骤摘要】

本专利技术涉及机械臂控制以及深度强化学习领域,尤其是一种具有优先级的动态后视经验回放技术加深度强化学习方法,进而在模拟环境中实现机械臂对移动目标的抓取。


技术介绍

1、强化学习是代理以不断试错的方式在环境中进行学习。通过与环境进行交互获得的奖惩进而指导动作的进行。而目标则是使智能体能够获得最大的奖赏。每个时刻,智能体根据策略,在当前所处状态选择一个动作。环境对这些动作做出回应,转移到新状态。同时产生一个奖励信号,这通常是一个数值。奖励的折扣累加和称为收益回报。收益回报是智能体在动作选择过程中想要最大化的目标。为了能够训练可靠的代理,需要设计一个奖励函数帮助代理按照奖励函数完成训练。但是,面对一些只知道结果,但过程无法描述的工程来说,很难设计相应的奖励函数。事后经验回放(her)提出使用失败经验的已实现目标取代训练轨迹的期望。该方法能够额外利用失败经验来丰富存储库。通过这种修改,任何失败的经验都可以得到非负的奖励,代理人在任务失败的情况下也能学到东西。该方法在解决机械臂操作任务方面的问题表现较为优秀。之后更新的dher方法可以完成移动物体跟踪与抓取任务。但是本文档来自技高网...

【技术保护点】

1.基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:具体步骤如下:

2.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤1中状态向量包括机械臂末端位置、所操作物体位置及速度、夹爪状态和目标物体的位置及速度。

3.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤5具体步骤如下:

4.根据权利要求3所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤5.2所述对转换元组进行优先级排序的具体方式如下:

5.根据权利要求1所述的基于深度强化...

【技术特征摘要】

1.基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:具体步骤如下:

2.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤1中状态向量包括机械臂末端位置、所操作物体位置及速度、夹爪状态和目标物体的位置及速度。

3.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤5具体步骤如下:

4.根据权利要求3所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤5.2所述对转换元组进行优先级排序的具体方式如下:

5.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤6具体步骤如下:

6.根据权利要求5所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤6.1中“future”的方式具体为每次随机选择轨迹中当前转换元组之后的k个状态对应的目标作为重标记的目标。

7...

【专利技术属性】
技术研发人员:程淑红杨木天张典范张仕军蒋政朱玉杰
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1