【技术实现步骤摘要】
基于强化学习的机械臂插件控制方法、装置、设备及介质
[0001]本申请涉及机械臂控制
,尤其涉及一种基于强化学习的机械臂插件控制方法、装置、设备及介质。
技术介绍
[0002]现有的插件方法通常利用机械臂的末端将插件插入目标位置,该插件方法的工作流程为:先利用预先训练好的运动控制模型生成并发送运动指令,再控制机械臂根据接收到的运动指令将插件插入目标位置。运动控制模型生成运动指令的过程为:1、对机械臂模型的末端进行路线规划;2、利用逆运动学求解出末端在各个位置对应的角关节角度,并根据角关节角度生成运动指令。由于运动控制模型在进行逆运动学求解时具有不确定性,因此现有的运动控制模型需要通过大量的计算才能生成能将插件插入容器中的运动指令,即现有的插件方法存在计算量大的问题。
[0003]因此,现有技术有待改进和发展。
技术实现思路
[0004]鉴于上述现有技术的不足之处,本申请的目的在于提供一种基于强化学习的机械臂插件控制方法、装置、设备及介质,能够有效地减少插件方法的数据计算量。
[0005] ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的机械臂插件控制方法,用于控制机械臂插件,其特征在于,所述基于强化学习的机械臂插件控制方法包括以下步骤:根据容器位姿信息及预设距离设定中间点信息,所述中间点信息为位于容器模型的正上方的预设点的信息;基于随机的第一初始化位姿和所述中间点信息训练第一强化学习模型,所述第一强化学习模型用于生成第一移动策略,所述第一移动策略用于控制所述机械臂模型移动使其末端上的插件模型移动至中间点信息处;基于随机的第二初始化位姿、训练后的第一强化学习模型、所述中间点信息和所述容器位姿信息训练第二强化学习模型,所述第二强化学习模型用于生成第二移动策略,所述第二移动策略用于在所述第一移动策略控制所述机械臂模型将其末端上的插件模型移动至中间点信息处时控制所述机械臂模型将其末端上的插件模型插入容器模型中;部署训练后的第一强化学习模型及第二强化学习模型到机械臂控制端以控制所述机械臂进行插件。2.根据权利要求1所述的基于强化学习的机械臂插件控制方法,其特征在于,所述基于随机的第一初始化位姿和所述中间点信息训练第一强化学习模型的训练过程为:基于随机的第一初始化位姿、中间点信息、第一奖励函数和惩罚函数训练第一强化学习模型,所述第一奖励函数用于根据机械臂模型的末端与位于容器模型正上方的预设点之间的距离输出第一奖励输出值,所述惩罚函数用于根据机械臂模型在仿真运动过程中的关节角的运动速度输出惩罚输出值。3.根据权利要求2所述的基于强化学习的机械臂插件控制方法,其特征在于,位于容器模型的正上方的预设点的数量为两个,所述第一奖励函数公式为:;其中,r1表示第一奖励输出值,|d|表示机械臂模型的末端上的两个点与位于容器模型正上方的两个预设点的平均空间距离,c1、c2为常数,|d1|表示机械臂模型的末端上的1号点与位于容器模型正上方的1号预设点的欧式距离,|d2|表示机械臂模型的末端上的2号点与位于容器模型正上方的2号预设点的欧式距离,(x1,y1,z1)表示在机械臂模型根据第一移动策略移动后,机械臂模型的末端上的1号点在空间坐标系中的坐标,(x
t1
,y
t1
,z
t1
)表示位于容器模型正上方的1号预设点在空间坐标系中的坐标,(x2,y2,z2)表示在机械臂模型根据第一移动策略移动后,机械臂模型的末端上的2号点在空间坐标系中的坐标,(x
t2
,y
t2
,z
t2
)表示位于容器模型正上方的2号预设点在空间坐标系中的坐标。4.根据权利要求1所述的基于强化学习的机械臂插件控制方法,其特征在于,所述基于随机的第二初始化位姿、训练后的第一强化学习模型、所述中间点信息和所述容器位姿信息训练第二强化学习模型的训练过程为:基于随机的第二初...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。