【技术实现步骤摘要】
一种基于深度强化学习的机械臂控制方法及系统
[0001]本专利技术涉及深度强化学习领域,特别是涉及一种基于深度强化学习的机械臂控制方法及系统。
技术介绍
[0002]如今,人工智能技术蓬勃发展,相关智能机器人遍布各行各业。其对提高工业生产效率、降低生产成本以及提高产品质量发挥着至关重要的作用。智能机器人应用在各种不同场景的复杂工作环境,对环境有较强的适应性,符合未来机器人发展的需求,对机器人自动化、智能化、精度、稳定性、灵活性提出了更高的要求。机械臂是生产流程过程当中非常重要的设备,要实现机械臂灵活准确的行为选择,仅仅依靠设计者的经验和个人知识积累来编程控制,机器人系统很难良好适应复杂、不确定的环境。深度强化学习算法的不断发展,为实现机械臂自主学习、智能控制提供了可能性。
[0003]在深度强化学习中,机械臂与环境不断进行交互,基于环境的反馈学习如何选择一系列动作,以使长期累积的奖励最大化。利用深度神经网络(Deep Neuarl Networks,DNN)作为函数逼近器,深度强化学习算法能够直接从高维输入中学习复杂 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的机械臂控制方法,其特征在于,所述方法包括:建立机械臂的环境空间、机械臂的状态、机械臂的动作以及抓取物体的目标位置;机械臂在每个时刻t观察自身状态s
t
,在当前策略π下选择一个动作a
t
与环境进行交互,得到环境的反馈r
t
,并转移到下一个状态s
t+1
,此时获得时刻t下的经验,e
t
=(s
t
,a
t
,r
t
,s
t+1
),即样本,所述样本的数量为M;构建短期记忆回放池B1和被遗忘回忆池B2;所述短期记忆回放池B1的大小为K;将获取的M个样本以η的概率替换所述短期记忆回放池B1中的样本;将所有被替换的样本存入所述被遗忘回忆池B2中;在所述短期记忆回放池B1和被遗忘回忆池B2中按照各自的抽样比例进行抽样,抽取B个样本;采用抽取的B个样本对神经网络进行训练,更新当前策略;将机械臂的当前状态s
t
输入至训练好的神经网络中,得到动作输出;将所述动作输出作为机械臂在当前状态下所需执行的最优动作。2.根据权利要求1所述的基于深度强化学习的机械臂控制方法,其特征在于,所述机械臂的当前状态s
t
=s
t
||g
t
,g
t
为目标位置,双竖线符号“||”表示两个向量进行串联拼接。3.根据权利要求1所述的基于深度强化学习的机械臂控制方法,其特征在于,所述样本数量M远小于K,K为短期记忆回放池B1的大小。4.根据权利要求1所述的基于深度强化学习的机械臂控制方法,其特征在于,所述概率η的表达式如下:其中,x表示时间步的索引,T表示实验设置的总时间步。5.根据权利要求1所述的基于深度强化学习的机械臂控制方法,其特征在于,在所述短期记忆回放池B1和被遗忘回忆池B2中按照各自的抽样比例进行抽样,抽取B个样本具体包括:定义退火的参数α;从B1中均匀抽取α
·
B个样本,从B2中均匀抽取(1
‑
α)
·
B个样本。6.一种基于深度强化学习的机械臂控制系统,其特征在于,所述系统包括:环境空间、机械臂的状态、机械臂的动作以及抓取物体...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。