本发明专利技术公开了一种基于方向奖励的机械臂智能控制方法,该方法包括:S1:确定机械臂的初始姿态,获取预定的目标点位置;S2:通过强化学习算法控制机械臂移动,以使得机械臂的末端执行器移动至预定的目标点位置;在S2中,强化学习算法为DDPG算法,强化学习算法设置有控制机械臂移动的奖励函数,奖励函数的公式如下:R=R
【技术实现步骤摘要】
基于方向奖励的机械臂智能控制方法
[0001]本专利技术涉及自动控制
,尤其涉及一种基于方向奖励的机械臂智能控制方法。
技术介绍
[0002]当前,神经生理学家对生物的运动控制进行了深入的探索研究,他们的研究表明,运动控制与生物的神经细胞高度相关,运动首先以更抽象的、基于方向的形式进行计划编码。在部分研究中,研究人员通过设置简单的手臂到达实验,对恒河猴运动系统多个区域的神经细胞进行记录。研究结果表明,运动皮质细胞编码运动方向,朝着特定方向的运动需要激活相应的细胞。而且,通过进一步地研究表明,在手臂的到达运动控制中,人脑通过调整运动皮质细胞编码的预期运动方向使得其与实际的目标方向相匹配来完成任务,即通过方向偏差来控制手臂末端到达预定的目标位置。
[0003]强化学习是一种在交互中学习的计算性方法。控制系统通过执行动作与环境交互,以预期收益信号最大化为目标,实现了智能化的控制。DDPG是强化学习中针对连续行为的策略学习方法。其中,DDPG能够基于确定性行为策略的原理,通过对策略网络和Q值网络的训练,获得了一个确定性行为策略模型,从而实现了对连续行为的控制。
[0004]机械臂作为一种智能化机械设备,其主要功能是协助或替代人类完成一定的工作任务。因其适用性强,灵活性高,被广泛应用于各行各业。随着计算机科学技术的快速发展,有关控制机械臂的研究和应用得到了不断的发展。
[0005]在传统的机械臂控制方法中,为完成机械臂末端执行器到达预定目标的运动控制任务,控制系统首先要规划好末端执行器到达预定目标位置的运动轨迹,然后再一一求解运动轨迹各点对应的机械臂各关节的角度,从而实现对机械臂的控制,使其末端执行器到达预定的目标位置。然而,运动轨迹各点对应的机械臂各关节的角度的求解涉及到机械臂雅可比矩阵的求逆问题,由于一个末端位置可以由不同的机械臂姿态来达成,因而雅可比矩阵的逆解存在着一对多的情况;此外,当机械臂末端执行器位于奇异点时,一个末端位置会对应无限多组解,微小的位移变化量就会导致某些轴的角度产生剧烈变化,产生近似无限大的角速度,从而导致奇异性问题的产生;以上情况使得机械臂的雅可比矩阵的求逆问题变得十分复杂,这使得研究人员在机械臂传统控制方法的设计时耗费了大量的精力。
技术实现思路
[0006]为解决上述现有技术中存在的部分或全部技术问题,本专利技术提供一种基于方向奖励的机械臂智能控制方法。
[0007]本专利技术的技术方案如下:
[0008]一种基于方向奖励的机械臂智能控制方法,所述方法包括:
[0009]S1:确定机械臂的初始姿态,获取预定的目标点位置;
[0010]S2:通过强化学习算法控制所述机械臂移动,以使得所述机械臂的末端执行器移
动至所述预定的目标点位置;
[0011]在所述S2中,所述强化学习算法为DDPG算法,所述强化学习算法设置有控制所述机械臂移动的奖励函数,所述奖励函数的公式如下:
[0012]R=R
d
+R
v
+R
g
[0013]其中,R表示总奖励;R
d
表示所述机械臂的末端执行器运动的速度方向与所述预定的目标点位置的目标方向的夹角取负后的值;R
v
表示所述机械臂的末端执行器运动的速度绝对值取负后的值;表示所述机械臂的末端执行器是否到达所述预定的目标点位置范围内的奖励值,如果是,R
g
=1,如果不是,R
g
=0。
[0014]可选地,所述机械臂具有多个关节,在所述S2中,所述强化学习算法输出的动作值为所述关节运动的角速度,所述强化学习算法能够控制所述机械臂在预定的时间内移动。
[0015]可选地,在所述强化学习算法中,根据所述关节运动的角速度和所述预定的时间确定所述机械臂下一时刻的运动姿态。
[0016]可选地,在所述S2中,为提高所述机械臂的末端执行器移动至所述预定的目标点位置的成功率,当所述机械臂无法通过所述强化学习算法训练得到的策略完成移动时,切换至通过综合控制策略控制所述机械臂移动,之后再切换回通过所述强化学习算法训练得到的策略继续移动,
[0017]其中,所述综合控制策略包括第一随机策略和第二随机策略,所述第一随机策略是以通过所述强化学习算法训练得到的策略输出的动作值为均值来产生服从高斯分布的随机动作值,从而使得所述机械臂能够跳出无法完成移动的状态;所述第二随机策略是采用限定的动作值替代所述强化学习算法训练得到的策略输出的动作值,使得所述机械臂可以先暂时远离所述预定的目标点位置。
[0018]可选地,在所述S2中,当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第一预定时长t1且没有完成任务时,通过所述第一随机策略控制所述机械臂移动,当通过所述第一随机策略控制所述机械臂执行的时长超过第一管控时长c1后,返回通过所述强化学习算法训练得到的策略控制所述机械臂移动;
[0019]当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第二预定时长t2且没有完成任务时,通过所述第二随机策略控制所述机械臂移动,当通过所述第二随机策略控制所述机械臂执行的时长超过第二管控时长c2后,返回通过所述强化学习算法训练得到的策略控制所述机械臂移动。
[0020]本专利技术技术方案的主要优点如下:
[0021]本专利技术中的方法,基于人脑通过调整运动皮质细胞编码的预期运动方向为目标方向的原理,利用了强化学习算法中针对连续控制问题的DDPG算法,可以有效地实现对机械臂的实时控制,并能够让机械臂的末端执行器运动到预定的目标点位置。与现有技术相比,本方法可以避免传统机械臂控制中的雅各比矩阵求逆问题和机械臂存在的奇异点问题,能够简化机械臂控制算法的设计。通过该方法驱动的机械臂具有较高的自主能力,而且机械臂控制系统可以在与环境交互的过程中自主到达预定的目标位置,能够增强机械臂控制的自主能力。此外,不需要额外的轨迹规划算法,可以提高机械臂控制的智能化水平。
附图说明
[0022]此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0023]图1为根据本专利技术的一个实施方式中的基于方向奖励的机械臂智能控制方法的步骤示意图;
[0024]图2为根据本专利技术的一个实施方式中的基于方向奖励的机械臂智能控制方法的流程示意图。
具体实施方式
[0025]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]以下结合附图,详细说明本专利技术实施例提供的技术方案。
[0027]在根本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于方向奖励的机械臂智能控制方法,其特征在于,所述方法包括:S1:确定机械臂的初始姿态,获取预定的目标点位置;S2:通过强化学习算法控制所述机械臂移动,以使得所述机械臂的末端执行器移动至所述预定的目标点位置;在所述S2中,所述强化学习算法为DDPG算法,所述强化学习算法设置有控制所述机械臂移动的奖励函数,所述奖励函数的公式如下:R=R
d
+R
v
+R
g
其中,R表示总奖励;R
d
表示所述机械臂的末端执行器运动的速度方向与所述预定的目标点位置的目标方向的夹角取负后的值;R
v
表示所述机械臂的末端执行器运动的速度绝对值取负后的值;R
g
表示所述机械臂的末端执行器是否到达所述预定的目标点位置范围内的奖励值,如果是,R
g
=1,如果不是,R
g
=0。2.根据权利要求1所述的基于方向奖励的机械臂智能控制方法,其特征在于,所述机械臂具有多个关节,在所述S2中,所述强化学习算法输出的动作值为所述关节运动的角速度,所述强化学习算法能够控制所述机械臂在预定的时间内移动。3.根据权利要求2所述的基于方向奖励的机械臂智能控制方法,其特征在于,在所述强化学习算法中,根据所述关节运动的角速度和所述预定的时间确定所述机械臂下一时刻的运动姿态。4.根据权利要...
【专利技术属性】
技术研发人员:陈小前,满桁宇,熊丹,黄奕勇,韩伟,刘红卫,付康佳,杨延杰,
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。