一种煤矿自主巡检平台上的机械臂运动规划方法和装置制造方法及图纸

技术编号:33159825 阅读:14 留言:0更新日期:2022-04-22 14:17
本申请提出一种煤矿自主巡检平台上机械臂运动规划方法和装置,其中,方法包括:检测机械臂可达范围内的障碍物;对障碍物进行体素化处理,获得障碍物的体素向量;获取机械臂的目标位姿向量和机械臂当前时刻的关节角度向量;将体素向量、机械臂的目标位姿向量和机械臂当前时刻的关节角度向量输入至预先训练的运动规划器,获得机械臂下一时刻的关节调度变化量;根据机械臂下一时刻的关节角度变化量,控制机械臂完成下一步动作。本申请通过对机械臂可达范围内的障碍物进行体素化处理,利用预先训练的运动规划器获取机械臂下一时刻的关节角度变化量,控制机械臂完成下一步动作,适用于复杂的工作场景,满足煤矿场景中移动巡检平台实施控制的需求。台实施控制的需求。台实施控制的需求。

【技术实现步骤摘要】
一种煤矿自主巡检平台上的机械臂运动规划方法和装置


[0001]本申请涉及机械臂运动规划
,尤其涉及一种煤矿自主巡检平台上的机械臂运动规划方法和装置。

技术介绍

[0002]煤矿中,在露天或者井下均存在大量需要周期性监测的设备,如带式输送机、配电房、综采面设备、通风设备、排水设备等,在发生故障时往往需要进行简单的处理,例如配电房合闸等操作。为了实现这些功能,需要将自主导航移动平台和机械臂结合起来,将机械臂运用到巡检平台上。与传统的工厂车间工作环境相比,井下巡检平台的工作环境更加复杂,主要呈现非结构化、有人员参与,无法设置安全区以及场景存在不可预测的动态变化等特点,这些对机械臂的运动规划提出了更高的要求。

技术实现思路

[0003]本申请提供一种煤矿自主巡检平台上机械臂运动规划方法和装置,以提高复杂环境中机械臂运动规划的轨迹质量。
[0004]本申请第一方面实施例提出了一种煤矿自主巡检平台上机械臂运动规划方法,包括:
[0005]检测机械臂可达范围内的障碍物;
[0006]对所述障碍物进行体素化处理,获本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种煤矿自主巡检平台上机械臂运动规划方法,其特征在于,包括以下步骤:检测机械臂可达范围内的障碍物;对所述障碍物进行体素化处理,获得所述障碍物的体素向量;获取所述机械臂的目标位姿向量和所述机械臂当前时刻的关节角度向量;将所述体素向量、所述机械臂的目标位姿向量和所述机械臂当前时刻的关节角度向量输入至预先训练的运动规划器,获得所述机械臂下一时刻的关节角度变化量;根据所述机械臂下一时刻的关节角度变化量,控制所述机械臂完成下一步动作。2.根据权利要求1所述的方法,其特征在于,所述运动规划器通过以下步骤预先训练得到:创建仿真环境;观察所述仿真环境中机械臂样本当前时刻的关节角度向量、所述机械臂样本的目标位姿向量和障碍物样本当前时刻的体素向量,并获得所述机械臂样本下一时刻的关节角度变化量;在所述仿真环境中根据所述下一时刻的关节角度变化量,控制所述机械臂样本完成下一步运动;观察执行所述下一步动作之后的所述机械臂样本的状态和所述障碍物样本状态、奖励信号和任务终止信号;将执行所述下一步动作之后的所述机械臂样本的状态确定为所述机械臂样本下一时刻的关节角度向量,并将执行所述下一步动作之后的所述障碍物样本状态确定为所述障碍物样本下一时刻的体素向量;将所述机械臂样本当前时刻的关节角度向量、所述机械臂样本的目标位姿向量和所述障碍物样本当前时刻的体素向量、所述机械臂样本下一时刻执行的动作、所述机械臂样本下一时刻的关节角度向量、所述障碍物样本下一时刻的体素向量、所述奖励信号和任务终止信号,作为训练数据;基于强化学习算法,采用所述训练数据对策略神经网络的参数进行更新,获得所述策略神经网络的模型参数,并根据所述模型参数生成所述运动规划器。3.根据权利要求2所述的方法,其特征在于,所述基于强化学习算法,采用所述训练数据对策略神经网络的参数进行更新,包括:根据所述训练数据,计算Q神经网络训练标签;根据所述训练数据,计算Q神经网络预测数据;根据所述Q神经网络训练标签和所述Q神经网络预测数据,计算所述Q神经网络的梯度向量;根据所述Q神经网络的梯度向量,更新策略神经网络的参数。4.根据权利要求3所述的方法,其特征在于,所述根据所述Q神经网络的梯度向量,更新策略神经网络的参数,包括:根据所述Q神经网络的梯度向量,更新所述Q神经网络函数值;根据所述Q神经网络函数值,所述更新策略神经网络的参数。5.根据权利要求3或4所述的方法,其特征在于,所述Q神经网络训练标签通过以下公式计算:
其中,r为所述奖励信号;sˊ为下一时刻的状态向量,包括所述机械臂样本下一时刻的关节角度向量、所述障碍物样本下一时刻的体素向量和所述机械臂样本的目标位姿向量;d为所述任务终止信号;γ为第一折扣系数,其中γ的范围为0~1;为将所述下一时刻的状态向量sˊ输入至策略神经网络后做出的动作;为第i个Q神经网络在所述下一时刻的状态向量sˊ下做出所述动作的概率;α为第二折扣系数;为所述策略神经网络在所述下一时刻的状态向量sˊ...

【专利技术属性】
技术研发人员:付鑫王海军杨晓辉王洪磊孟繁悦吴太晖
申请(专利权)人:煤炭科学研究总院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1