在动态环境中基于深度强化学习的机械臂实时控制方法技术

技术编号：39437168 阅读：7 留言：0更新日期：2023-11-19 16:20

本申请公开了一种在动态环境中基于深度强化学习的机械臂实时控制方法，所述方法包括获取机械臂状态信息、障碍物状态信息以及目标点状态信息，采用人工势场方法，计算目标点的的吸引速度和障碍物的排斥速度，获得机械臂的第一控制动作，采用深度强化学习算法，获得机械臂的第二控制动作，根据第一控制动作和第二控制动作，进行动作叠加，获得机械臂的实时控制动作，执行路径规划任务。本申请结合深度强化学习和人工势场法的优势，能够在复杂的控制环境中实现更精准的机械臂运动，控制机械臂在非结构化的复杂环境中执行路径规划任务时的避障能力和学习效率，实现在动态环境中精确、高效地控制机械臂运动。本申请广泛应用于机械臂控制技术领域。臂控制技术领域。臂控制技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
在动态环境中基于深度强化学习的机械臂实时控制方法

[0001]本申请涉及机械臂控制
，特别涉及一种在动态环境中基于深度强化学习的机械臂实时控制方法。

技术介绍

[0002]在机械臂控制领域，传统的控制方法往往依赖于预先编程的轨迹规划或基于传感器反馈的位置控制，这些方法在复杂、动态的环境下存在一些问题和局限性，包括但不限于以下方面：
[0003]1.缺乏实时感知和适应能力：传统的控制方法往往无法实时感知和适应动态环境中的变化，导致控制响应滞后和性能下降。
[0004]2.障碍物避让困难：在频繁变化的障碍物场景下，传统的轨迹规划和位置控制方法往往无法灵活地避开障碍物，导致碰撞或无法到达目标位置。
[0005]3.在复杂环境下容易陷入局部最优和震荡现象，导致控制性能下降和稳定性问题。

技术实现思路

[0006]为了解决至少一个上述相关技术中存在的技术问题，本申请实施例提出了一种在动态环境中基于深度强化学习的机械臂实时控制方法，旨在实现对机械臂运动的精确控制和障碍物避让。
[0007]本申请实施例提出了一种在动态环境中基于深度强化学习的机械臂实时控制方法，包括：
[0008]获取机械臂状态信息、障碍物状态信息以及目标点状态信息；所述机械臂状态信息包括各个关节的关节角度信息、关节位置信息以及关节速度信息；
[0009]根据所述机械臂状态信息、所述障碍物状态信息以及所述目标点状态信息，采用人工势场方法，计算目标点的吸引速度和障碍物的排斥速度，获得机械臂的第一控...

【技术保护点】

【技术特征摘要】
1.一种在动态环境中基于深度强化学习的机械臂实时控制方法，其特征在于，包括：获取机械臂状态信息、障碍物状态信息以及目标点状态信息；所述机械臂状态信息包括各个关节的关节角度信息、关节位置信息以及关节速度信息；根据所述机械臂状态信息、所述障碍物状态信息以及所述目标点状态信息，采用人工势场方法，计算目标点的吸引速度和障碍物的排斥速度，获得机械臂的第一控制动作；根据所述机械臂状态信息，采用深度强化学习算法，获得机械臂的第二控制动作；根据所述第一控制动作和所述第二控制动作，进行动作叠加，获得机械臂的实时控制动作；根据所述实时控制动作，控制机械臂执行路径规划任务。2.根据权利要求1所述的机械臂实时控制方法，其特征在于，还包括：采用碰撞检测方法，检测机械臂执行所述实时控制动作是否无碰撞到达目标点，确定检测结果；根据所述检测结果，确定机械臂是否继续执行所述路径规划任务。3.根据权利要求1所述的机械臂实时控制方法，其特征在于，所述障碍物状态信息包括障碍物位置信息和障碍物速度信息；所述目标点状态信息包括目标速度信息和目标位置信息；所述根据所述机械臂状态信息、所述障碍物状态信息以及所述目标点状态信息，采用人工势场方法，计算目标点的吸引速度和障碍物的排斥速度，获得机械臂的第一控制动作这一步骤，具体包括：根据所述目标速度信息、所述目标位置信息和机械臂末端关节点的第一关节速度信息以及第一关节位置信息，建立目标点的引力势场，计算所述吸引速度；根据所述障碍物位置信息和机械臂的所述各个关节的关节位置信息，计算机械臂关节与障碍物位置的距离，确定参照关节点；所述参照关节点为与障碍物距离最近的机械臂关节点；根据所述障碍物位置信息、障碍物速度信息以及所述参照关节点的第二关节速度信息和第二关节位置信息，建立障碍物位置的斥力势场，计算所述排斥速度；将所述吸引速度和所述排斥速度映射到机械臂的关节空间，采用雅可比矩阵，进行所述吸引速度和所述排斥速度的矢量叠加，获得所述第一控制动作。4.根据权利要求1所述的机械臂实时控制方法，其特征在于，所述根据所述机械臂状态信息，采用深度强化学习算法，获得机械臂的第二控制动作这一步骤，具体包括：初始化深度强化学习算法参数；所述深度强化学习算法参数包括状态空间S、动作空间A、Actor网络和Critic网络架构、奖励函数R、经验回放池容量L、学习率α、未来奖励折扣λ以及噪音参数Ν
t
；根据所述机械臂状态信息，更新所述深度强化学习算法参数，通过所述深度强化学习算法输出所述第二控制动作。5.根据权利要求1所述的机械臂实时控制方法，其特征在于，所述根据所述第一控制动作和所述第二控制动作，进行动作叠加，获得机械臂的实时控制动作这一步骤，具体用下式表示：a
t
＝μa
1t
+a
2t
其中，μ是速度势场权重系数，a
1t
为所述第一控制动作，a
2t
为所述第二控制动作，a
t
为所
述实时控制动作。6.根据权利要求3所述的机械臂实时控制方法，其特征在于，所述根据所述目标速度信息、所述目标位置信息和机械臂末端关节点的第一关节速度信息以及第一关节位置信息，建立目标点的引力势场，计算所述吸引速度这一步骤，具体用下式表示：V
att
＝k1(P
t
‑
P
g
)+k2(V
t
‑
V
g
)其中，P
t
为机械臂末端关节点的位置矢量，P
g
为目标点的位...

【专利技术属性】
技术研发人员：程良伦，周美龙，王涛，
申请(专利权)人：广东能哥知识科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人