在动态环境中基于深度强化学习的机械臂实时控制方法技术

技术编号:39437168 阅读:7 留言:0更新日期:2023-11-19 16:20
本申请公开了一种在动态环境中基于深度强化学习的机械臂实时控制方法,所述方法包括获取机械臂状态信息、障碍物状态信息以及目标点状态信息,采用人工势场方法,计算目标点的的吸引速度和障碍物的排斥速度,获得机械臂的第一控制动作,采用深度强化学习算法,获得机械臂的第二控制动作,根据第一控制动作和第二控制动作,进行动作叠加,获得机械臂的实时控制动作,执行路径规划任务。本申请结合深度强化学习和人工势场法的优势,能够在复杂的控制环境中实现更精准的机械臂运动,控制机械臂在非结构化的复杂环境中执行路径规划任务时的避障能力和学习效率,实现在动态环境中精确、高效地控制机械臂运动。本申请广泛应用于机械臂控制技术领域。臂控制技术领域。臂控制技术领域。

【技术实现步骤摘要】
在动态环境中基于深度强化学习的机械臂实时控制方法


[0001]本申请涉及机械臂控制
,特别涉及一种在动态环境中基于深度强化学习的机械臂实时控制方法。

技术介绍

[0002]在机械臂控制领域,传统的控制方法往往依赖于预先编程的轨迹规划或基于传感器反馈的位置控制,这些方法在复杂、动态的环境下存在一些问题和局限性,包括但不限于以下方面:
[0003]1.缺乏实时感知和适应能力:传统的控制方法往往无法实时感知和适应动态环境中的变化,导致控制响应滞后和性能下降。
[0004]2.障碍物避让困难:在频繁变化的障碍物场景下,传统的轨迹规划和位置控制方法往往无法灵活地避开障碍物,导致碰撞或无法到达目标位置。
[0005]3.在复杂环境下容易陷入局部最优和震荡现象,导致控制性能下降和稳定性问题。

技术实现思路

[0006]为了解决至少一个上述相关技术中存在的技术问题,本申请实施例提出了一种在动态环境中基于深度强化学习的机械臂实时控制方法,旨在实现对机械臂运动的精确控制和障碍物避让。
[0007]本申请实施例提出了一种在动态环境中基于深度强化学习的机械臂实时控制方法,包括:
[0008]获取机械臂状态信息、障碍物状态信息以及目标点状态信息;所述机械臂状态信息包括各个关节的关节角度信息、关节位置信息以及关节速度信息;
[0009]根据所述机械臂状态信息、所述障碍物状态信息以及所述目标点状态信息,采用人工势场方法,计算目标点的吸引速度和障碍物的排斥速度,获得机械臂的第一控制动作;
[0010]根据所述机械臂状态信息,采用深度强化学习算法,获得机械臂的第二控制动作;
[0011]根据所述第一控制动作和所述第二控制动作,进行动作叠加,获得机械臂的实时控制动作;
[0012]根据所述实时控制动作,控制机械臂执行路径规划任务。
[0013]在一些实施例,所述方法还包括:
[0014]采用碰撞检测方法,检测机械臂执行所述实时控制动作是否无碰撞到达目标点,确定检测结果;
[0015]根据所述检测结果,确定机械臂是否继续执行所述路径规划任务。
[0016]在一些实施例,所述障碍物状态信息包括障碍物位置信息和障碍物速度信息;所述目标点状态信息包括目标速度信息和目标位置信息;所述根据所述机械臂状态信息、所述障碍物状态信息以及所述目标点状态信息,采用人工势场方法,计算目标点的吸引速度
[0038][0039]其中,R1表示机械臂末端到目标距离的负值作为惩罚,用以训练机械臂接近目标点,R2为机械臂末端是否到达目标位置给予二值奖励,引导机械臂到达目标点,η表示斥力因子,d
i
表示第i个障碍物到机械臂末端的距离,ρ表示障碍物的影响范围,R3使用了斥力势场构建奖励函数,表示机械臂末端到障碍物的距离作为惩罚,当用来引导机械臂远离障碍物,R4为机械臂发生碰撞给予惩罚,引导机械臂避免发生碰撞。
[0040]在一些实施例,所述根据所述检测结果,确定机械臂是否继续执行所述路径规划任务这一步骤,具体包括:
[0041]当所述检测结果为无碰撞发生时,根据所述实时控制动作,控制机械臂执行所述路径规划任务,收集动作经验集,将所述动作经验集存入所述深度强化学习算法中的经验回放池;所述动作经验集包括所述实时控制动作、执行所述实时控制动作的当前状态、完成所述实时控制动作的奖励值以及完成实时控制动作后的过渡状态;
[0042]当所述检测结果为发生碰撞时,控制机械臂停止执行所述路径规划任务,重新生成所述实时控制动作,再继续控制机械臂执行所述路径规划任务。
[0043]在一些实施例,所述根据所述障碍物位置信息、障碍物速度信息以及所述参照关节点的第二关节速度信息和第二关节位置信息,建立障碍物位置的斥力势场,计算所述排斥速度这一步骤,具体用下式表示:
[0044]当存在一个障碍物时,计算所述排斥速度用下式表示:
[0045]式1:
[0046]式2:v
p
=||V
M

V
ob
||
[0047]式3:
[0048]其中,v
p
表示参照关节点的速度矢量V
M
和障碍物的速度矢量V
ob
之差,表示V
M
和V
ob
的法向速度,当机械臂与障碍物不发生碰撞时,式1中不改变排斥速度方向,当机械臂与障碍物发生碰撞时,则启用式3计算式1中系数K表示当有多个障碍物时,K由于障碍物的距离和速度会有所不同,常量ρ表示排斥速度影响的范围,当障碍物和关节最短距离d小于ρ时,d越小排斥速度越大,当d大于ρ时排斥速度等于0;
[0049]当存在多个障碍物时,计算所述排斥速度用下式表示:
[0050][0051]其中,V
reqi
为第i个障碍物处的排斥速度,V
reqi
通过所述式1、所述式2以及所述式3进行计算获得。
[0052]在一些实施例,所述碰撞检测方法为AABB

box算法。
[0053]本申请提供的一种在动态环境中基于深度强化学习的机械臂实时控制方法,其通
过获取机械臂状态信息、障碍物状态信息以及目标点状态信息,采用人工势场方法,计算目标点的的吸引速度和障碍物的排斥速度,获得机械臂的第一控制动作,采用深度强化学习算法,获得机械臂的第二控制动作,根据第一控制动作和第二控制动作,进行动作叠加,获得机械臂的实时控制动作,执行路径规划任务。本申请结合深度强化学习和人工势场法的优势,利用深度强化学习网络学习机械臂的动作策略,并通过人工势场法生成合适的势场力来引导机械臂的运动,能够在复杂的控制环境中实现更精准的机械臂运动,提高深度强化学习效率,控制机械臂在非结构化的复杂环境中执行路径规划任务时的避障能力和学习效率,更好地感知和应对动态变化的障碍物,面对动态障碍物时能做出及时的避让动作,实现在动态环境中精确、高效地控制机械臂运动。
附图说明
[0054]图1是本申请实施例提供的一种在动态环境中基于深度强化学习的机械臂实时控制方法的流程图;
[0055]图2是本申请实施例中采用人工势场方式和深度强化学习算法输出实时控制动作的流程图。
具体实施方式
[0056]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0057]需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0058]除非另有定义,本文所使用的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在动态环境中基于深度强化学习的机械臂实时控制方法,其特征在于,包括:获取机械臂状态信息、障碍物状态信息以及目标点状态信息;所述机械臂状态信息包括各个关节的关节角度信息、关节位置信息以及关节速度信息;根据所述机械臂状态信息、所述障碍物状态信息以及所述目标点状态信息,采用人工势场方法,计算目标点的吸引速度和障碍物的排斥速度,获得机械臂的第一控制动作;根据所述机械臂状态信息,采用深度强化学习算法,获得机械臂的第二控制动作;根据所述第一控制动作和所述第二控制动作,进行动作叠加,获得机械臂的实时控制动作;根据所述实时控制动作,控制机械臂执行路径规划任务。2.根据权利要求1所述的机械臂实时控制方法,其特征在于,还包括:采用碰撞检测方法,检测机械臂执行所述实时控制动作是否无碰撞到达目标点,确定检测结果;根据所述检测结果,确定机械臂是否继续执行所述路径规划任务。3.根据权利要求1所述的机械臂实时控制方法,其特征在于,所述障碍物状态信息包括障碍物位置信息和障碍物速度信息;所述目标点状态信息包括目标速度信息和目标位置信息;所述根据所述机械臂状态信息、所述障碍物状态信息以及所述目标点状态信息,采用人工势场方法,计算目标点的吸引速度和障碍物的排斥速度,获得机械臂的第一控制动作这一步骤,具体包括:根据所述目标速度信息、所述目标位置信息和机械臂末端关节点的第一关节速度信息以及第一关节位置信息,建立目标点的引力势场,计算所述吸引速度;根据所述障碍物位置信息和机械臂的所述各个关节的关节位置信息,计算机械臂关节与障碍物位置的距离,确定参照关节点;所述参照关节点为与障碍物距离最近的机械臂关节点;根据所述障碍物位置信息、障碍物速度信息以及所述参照关节点的第二关节速度信息和第二关节位置信息,建立障碍物位置的斥力势场,计算所述排斥速度;将所述吸引速度和所述排斥速度映射到机械臂的关节空间,采用雅可比矩阵,进行所述吸引速度和所述排斥速度的矢量叠加,获得所述第一控制动作。4.根据权利要求1所述的机械臂实时控制方法,其特征在于,所述根据所述机械臂状态信息,采用深度强化学习算法,获得机械臂的第二控制动作这一步骤,具体包括:初始化深度强化学习算法参数;所述深度强化学习算法参数包括状态空间S、动作空间A、Actor网络和Critic网络架构、奖励函数R、经验回放池容量L、学习率α、未来奖励折扣λ以及噪音参数Ν
t
;根据所述机械臂状态信息,更新所述深度强化学习算法参数,通过所述深度强化学习算法输出所述第二控制动作。5.根据权利要求1所述的机械臂实时控制方法,其特征在于,所述根据所述第一控制动作和所述第二控制动作,进行动作叠加,获得机械臂的实时控制动作这一步骤,具体用下式表示:a
t
=μa
1t
+a
2t
其中,μ是速度势场权重系数,a
1t
为所述第一控制动作,a
2t
为所述第二控制动作,a
t
为所
述实时控制动作。6.根据权利要求3所述的机械臂实时控制方法,其特征在于,所述根据所述目标速度信息、所述目标位置信息和机械臂末端关节点的第一关节速度信息以及第一关节位置信息,建立目标点的引力势场,计算所述吸引速度这一步骤,具体用下式表示:V
att
=k1(P
t

P
g
)+k2(V
t

V
g
)其中,P
t
为机械臂末端关节点的位置矢量,P
g
为目标点的位...

【专利技术属性】
技术研发人员:程良伦周美龙王涛
申请(专利权)人:广东能哥知识科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1