【技术实现步骤摘要】
基于方向奖励的机械臂智能控制方法
[0001]本专利技术涉及自动控制
,尤其涉及一种基于方向奖励的机械臂智能控制方法。
技术介绍
[0002]当前,神经生理学家对生物的运动控制进行了深入的探索研究,他们的研究表明,运动控制与生物的神经细胞高度相关,运动首先以更抽象的、基于方向的形式进行计划编码。在部分研究中,研究人员通过设置简单的手臂到达实验,对恒河猴运动系统多个区域的神经细胞进行记录。研究结果表明,运动皮质细胞编码运动方向,朝着特定方向的运动需要激活相应的细胞。而且,通过进一步地研究表明,在手臂的到达运动控制中,人脑通过调整运动皮质细胞编码的预期运动方向使得其与实际的目标方向相匹配来完成任务,即通过方向偏差来控制手臂末端到达预定的目标位置。
[0003]强化学习是一种在交互中学习的计算性方法。控制系统通过执行动作与环境交互,以预期收益信号最大化为目标,实现了智能化的控制。DDPG是强化学习中针对连续行为的策略学习方法。其中,DDPG能够基于确定性行为策略的原理,通过对策略网络和Q值网络的训练,获得了一个确定性 ...
【技术保护点】
【技术特征摘要】
1.一种基于方向奖励的机械臂智能控制方法,其特征在于,所述方法包括:S1:确定机械臂的初始姿态,获取预定的目标点位置;S2:通过强化学习算法控制所述机械臂移动,以使得所述机械臂的末端执行器移动至所述预定的目标点位置;在所述S2中,所述强化学习算法为DDPG算法,所述强化学习算法设置有控制所述机械臂移动的奖励函数,所述奖励函数的公式如下:R=R
d
+R
v
+R
g
其中,R表示总奖励;R
d
表示所述机械臂的末端执行器运动的速度方向与所述预定的目标点位置的目标方向的夹角取负后的值;R
v
表示所述机械臂的末端执行器运动的速度绝对值取负后的值;R
g
表示所述机械臂的末端执行器是否到达所述预定的目标点位置范围内的奖励值,如果是,R
g
=1,如果不是,R
g
=0。2.根据权利要求1所述的基于方向奖励的机械臂智能控制方法,其特征在于,所述机械臂具有多个关节,在所述S2中,所述强化学习算法输出的动作值为所述关节运动的角速度,所述强化学习算法能够控制所述机械臂在预定的时间内移动。3.根据权利要求2所述的基于方向奖励的机械臂智能控制方法,其特征在于,在所述强化学习算法中,根据所述关节运动的角速度和所述预定的时间确定所述机械臂下一时刻的运动姿态。4.根据权利要...
【专利技术属性】
技术研发人员:陈小前,满桁宇,熊丹,黄奕勇,韩伟,刘红卫,付康佳,杨延杰,
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。