【技术实现步骤摘要】
一种基于深度强化学习的机器人路径寻优规划方法
[0001]本专利技术属机器人路径寻优规划领域,尤其涉及一种基于深度强化学习的机器人路径寻优规划方法,尤其适于压缩机气阀装配机器人自适应路径寻优的路径规划。
技术介绍
[0002]工业机器人多为多自由度机器人,其工作空间较为复杂,一旦环境未知或周围环境发生改变,工业机器人依然按照设定好的路径进行动作时,就会与障碍物发生碰撞,造成损失。这时就需要对机器人进行重新示教或路径规划,费时费力,又影响工作效率。
技术实现思路
[0003]本专利技术旨在克服现有技术的不足之处而提供一种成本低廉、工作效率高、适应范围广泛、可避免与障碍物发生碰撞的基于深度强化学习的机器人路径寻优规划方法。
[0004]为解决上述技术问题,本专利技术是这样实现的:
[0005]基于深度强化学习的机器人路径寻优规划方法,包括以下步骤:
[0006]S101:根据具体工作环境在具有物理性质的仿真MUJ0C0平台中搭建气阀装配工业机器人及工作环境的模型,使仿真环境与现实环境保持一 ...
【技术保护点】
【技术特征摘要】
1.基于深度强化学习的机器人路径寻优规划方法,其特征在于,包括以下步骤:S101:根据具体工作环境在具有物理性质的仿真MUJOCO平台中搭建气阀装配工业机器人及工作环境的模型,使仿真环境与现实环境保持一致;S102:在Tensorflow中搭建深度确定性策略梯度算法模型,通过读取搭建好的仿真模型中的数据,提取当前时刻机械臂状态和障碍物位置,进行学习训练;S103:当按照规定的次数训练完毕后,输出规划完毕的运动路线,将数据输入到机械臂的控制器中,机械臂即可按照规划的路径开始工作。2.根据权利要求1所述基于深度强化学习的机器人路径寻优规划方法,其特征在于:在步骤S101中,通过修改mujoco仿真器中的Feth Reach机器人环境数据,进行气阀装配机器人及工作环境的搭建。3.根据权利要求2所述基于深度强化学习的机器人路径寻优规划方法,其特征在于:在步骤S102中,策略梯度算法采用包括当前网络和目标网络的双网络结构;神经网络包括:Actor当前网络;负责策略网络参数θ的迭代更新,根据气阀装配工业机器人的当前状态S
′
选择气阀装配工业机器人要做的动作A,之后与环境交互计算出S
′
和R;Actor目标网络;用来依照在经验回放池中随机采集到的下一时刻的状态S
′
所选择的最优动作A
′
;其中参数θ会定期复制到网络参数θ
′
中;Critic当前网络;负责迭代更新价值网络参数ω,计算当前Q值Q(S,A,ω);Critic目标网络;负责计算目标Q值中的Q
′
(S
′
,A
′
,ω
′
),其中的参数ω会定期复制到网络参数ω
′
中。4.根据权利要求3所述基于深度强化学习的机器人路径寻优规划方法,其特征在于:在步骤S102中,策略梯度算法对通过决策选定的动作A加入一些噪声步骤S102中,策略梯度算法对通过决...
【专利技术属性】
技术研发人员:巴鹏,马立强,马浩然,张秀珩,
申请(专利权)人:沈阳理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。