一种基于SAC强化学习的机械臂路径规划方法、设备及介质技术

技术编号:40129204 阅读:57 留言:0更新日期:2024-01-23 21:52
本发明专利技术公开了一种基于SAC强化学习的机械臂路径规划方法、设备及介质,包括以下步骤:获取机械臂的当前状态;将所述机械臂的当前状态输入到训练后的软性演员‑评论家SAC强化学习模型中,得到机械臂的下一步动作,完成机械臂的路径规划,该方法、设备及介质能够使得机械臂路径规划更加合理。

【技术实现步骤摘要】

本专利技术属于机器人,涉及一种基于sac强化学习的机械臂路径规划方法、设备及介质。


技术介绍

1、工业机器人的规模化应用提高了工业和制造业等行业的生产效率。机械臂是机器人的主要形式之一,通过运动副的转动或移动使机械臂末端运动到合适的位置和姿态,完成不同的工作任务。热电厂中分布着多种仪表,这些仪表位于不同的高度,我们可以通过机械臂搭载摄像头的方式,来实现热电厂仪表的智能巡检。目前普遍使用的机械臂通常需要通过预先编程或拖动示教为其设定固定的工作流程,使其能够在单一场景中完成一些重复性工作,面对复杂多变的任务时适应能力很差。所以研究如何提高机械臂的智能化水平具有重要意义。

2、强化学习(reinforcement learning,rl)与人类学习技能的过程较为类似,它令机器人在与环境的交互过程中优化策略并获得最大收益或达成目标,机械臂路径规划的强化学习方法面临着一些难点,首先是机械臂的动作维度高、环境状态复杂,强化学习面对海量的状态数量和动作数量较难进行价值评估。其次是奖励稀疏的问题,通常当机械臂到达指定位置时才能得到奖励,这导致训练时间长,效果较本文档来自技高网...

【技术保护点】

1.一种基于SAC强化学习的机械臂路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于SAC强化学习的机械臂路径规划方法,其特征在于,还包括:

3.根据权利要求2所述的基于SAC强化学习的机械臂路径规划方法,其特征在于,所述经验回放池中存放的数据包括机械臂的当前状态、下一步动作、转换后的状态以及奖励(s,a,s′,r)。

4.根据权利要求2所述的基于SAC强化学习的机械臂路径规划方法,其特征在于,所述软性演员-评论家SAC强化学习模型包括一个策略网络、两个Q网络及两个目标Q网络。

5.根据权利要求2所述的基于SAC强化学习...

【技术特征摘要】

1.一种基于sac强化学习的机械臂路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于sac强化学习的机械臂路径规划方法,其特征在于,还包括:

3.根据权利要求2所述的基于sac强化学习的机械臂路径规划方法,其特征在于,所述经验回放池中存放的数据包括机械臂的当前状态、下一步动作、转换后的状态以及奖励(s,a,s′,r)。

4.根据权利要求2所述的基于sac强化学习的机械臂路径规划方法,其特征在于,所述软性演员-评论家sac强化学习模型包括一个策略网络、两个q网络及两个目标q网络。

5.根据权利要求2所述的基于sac强化学习的机械臂路径规划方法,其特征在于,所述利用所述经验回放池中的数据对所述软性演员-评论家sac强化学习模型进行训练过程中的奖励函数为:

6.根据权利要求5所述的基于sac强化学习的机...

【专利技术属性】
技术研发人员:贺凯王泽广王延生陈崇武尹锡兵尚海军赵培海张恒亮李明喜王钰泽史耀辉
申请(专利权)人:西安热工研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1