【技术实现步骤摘要】
本专利技术涉及机械臂控制以及深度强化学习领域,尤其是一种具有优先级的动态后视经验回放技术加深度强化学习方法,进而在模拟环境中实现机械臂对移动目标的抓取。
技术介绍
1、强化学习是代理以不断试错的方式在环境中进行学习。通过与环境进行交互获得的奖惩进而指导动作的进行。而目标则是使智能体能够获得最大的奖赏。每个时刻,智能体根据策略,在当前所处状态选择一个动作。环境对这些动作做出回应,转移到新状态。同时产生一个奖励信号,这通常是一个数值。奖励的折扣累加和称为收益回报。收益回报是智能体在动作选择过程中想要最大化的目标。为了能够训练可靠的代理,需要设计一个奖励函数帮助代理按照奖励函数完成训练。但是,面对一些只知道结果,但过程无法描述的工程来说,很难设计相应的奖励函数。事后经验回放(her)提出使用失败经验的已实现目标取代训练轨迹的期望。该方法能够额外利用失败经验来丰富存储库。通过这种修改,任何失败的经验都可以得到非负的奖励,代理人在任务失败的情况下也能学到东西。该方法在解决机械臂操作任务方面的问题表现较为优秀。之后更新的dher方法可以完成移动物体
...【技术保护点】
1.基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:具体步骤如下:
2.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤1中状态向量包括机械臂末端位置、所操作物体位置及速度、夹爪状态和目标物体的位置及速度。
3.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤5具体步骤如下:
4.根据权利要求3所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤5.2所述对转换元组进行优先级排序的具体方式如下:
5.根据权利要求
...【技术特征摘要】
1.基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:具体步骤如下:
2.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤1中状态向量包括机械臂末端位置、所操作物体位置及速度、夹爪状态和目标物体的位置及速度。
3.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤5具体步骤如下:
4.根据权利要求3所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤5.2所述对转换元组进行优先级排序的具体方式如下:
5.根据权利要求1所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤6具体步骤如下:
6.根据权利要求5所述的基于深度强化学习的机械臂移动目标抓取优化训练方法,其特征在于:步骤6.1中“future”的方式具体为每次随机选择轨迹中当前转换元组之后的k个状态对应的目标作为重标记的目标。
7...
【专利技术属性】
技术研发人员:程淑红,杨木天,张典范,张仕军,蒋政,朱玉杰,
申请(专利权)人:燕山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。