【技术实现步骤摘要】
一种基于多智能体强化学习的机械臂抗干扰运动规划方法
[0001]本专利技术涉及基于多智能体强化学习的机械臂运动规划方法,属于机器人运动规划与智能控制的
技术介绍
[0002]近几年随着人工智能技术的快速发展,以强化学习为代表的深度神经网络逐渐在求解高维复杂问题领域展现优势,为机械臂高效自主运动规划提供了新的思路。与传统运动规划方法相比,得益于神经网络对运动规划策略强大的学习能力,以及在与环境交互过程中可调节的探索机制,使其能够在高维运动空间实现快速在线规划,从而具备更快的响应速度以及更高的执行效率。但与此同时,现有基于强化学习的运动规划求解方法也暴露出抗干扰能力弱等痛点问题,成为制约其在实际任务中的落地应用的关键因素。
技术实现思路
[0003]本专利技术要解决的技术问题是:
[0004]本专利技术为了解决基于强化学习的机械臂强化学习运动规划算法抗干扰能力弱的问题,进而提出了一种基于多智能体强化学习的机械臂抗干扰运动规划方法。
[0005]本专利技术为解决上述技术问题所采用的技术方案 ...
【技术保护点】
【技术特征摘要】
1.一种基于多智能体强化学习的机械臂抗干扰运动规划方法,其特征在于:包括以下步骤:步骤一:基于关节图将机械臂离散成多智能体的形式;步骤二:计算各智能体的观测信息;步骤三:将各智能体的观测信息输入到各自对应的策略神经网络π
i
(φ
i
)中,分别输出各智能体的动作概率分布;步骤四:从各智能体的动作概率分布中采样得到各智能体的动作;步骤五:控制机械臂各智能体执行由各自策略神经网络计算得到的动作,并获取各智能体新的观测信息;步骤六:根据奖励函数计算奖励值;步骤七:重复步骤三到步骤六,以收集各智能体与环境的交互数据,以观测信息、动作、下一步的观测信息、奖励值组成的元组的形式进行存储;当各智能体的交互数据达到一定的量时,开始以一定的频率训练各智能体的策略神经网络;当训练回合数达到设定的最大回合数时,停止收集交互数据和训练;步骤八:利用训练后各智能体的策略神经网络规划机械臂各智能体的运动。2.根据权利要求1所述一种基于多智能体强化学习的机械臂抗干扰运动规划方法,其特征在于,步骤一包括以下步骤:步骤一一:将n自由度机械臂的各关节作为图中的节点V={1,2,...,n},关节之间的连杆作为边ε,则机械臂的关节图可以表示为无向图G=(V,ε);步骤一二:基于关节图为每个智能体划分动作空间;步骤一三:基于关节图为各智能设计观测空间。3.根据权利要求2所述一种基于多智能体强化学习的机械臂抗干扰运动规划方法,其特征在于,步骤一二所述基于关节图为每个智能体划分动作空间的方式为:各智能体从关节图中选取关节节点来构建自己的子关节图,各智能体只能控制自己的子关节图中的关节节点。4.根据权利要求2或3所述一种基于多智能体强化学习的机械臂抗干扰运动规划方法,其特征在于,步骤一三所述各智能的观测空间包含以下内容:各智能体的观测信息由三个部分组成:第一部分是智能体自己的子关节图中各关节节点的状态信息(如关节角度、角速度、力矩信息等);第二部分是与其他智能体通讯得到的信息,通讯信息的多少可以通过通讯距离k来确定,即各智能体可以观测到距离自己的子关节图k个关节节点之内的其他关节节点状态,k值越小各智能体的观测的局部性越明显;第三部分观测信息是全局任务信息,包括机械臂末端到目标点的距离信息。5.根据权利要求4所述一种基于多智能体强化学习的机械臂抗干扰运动规划方法,其特征在于,步骤二所述各智能体的观测信息包含以下内容:各智能体的观测信息分为三部分内容,第一部分内容为智能体观测到的自身状态信息各智能体的观测信息分为三部分内容,第一部分内容为智能体观测到的自身状态信息是智能体i的子关节图中各关节节点在t时刻的关节角度、是关节节点当前时刻较上一时刻的角度变化量;第二部分内容为各智能体与其他智能体通讯得到的信息得到的信息和分别指关节图中与智能体i的关节节点的距离小于
等于k的其他关节节点的角度和角度增量;第三部分内容是与规划任务相关的信息,此部分信息表示为P
t
,如为机械臂末端位置到目标位置的三维向量。6.根据权利要求5所述一种基于多智能体强化学习的机械...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。