一种基于平行重组网络的机械臂多任务强化学习方法技术

技术编号:41328234 阅读:31 留言:0更新日期:2024-05-13 15:06
本发明专利技术提供了一种基于平行重组网络的机械臂多任务强化学习方法,属于机械臂运动控制技术领域,该方法包括构建基于平行重组网络的机械臂多任务强化学习模型PR‑SAC,并进行训练;利用已训练的机械臂多任务强化学习模型PR‑SAC对机械臂进行控制,以实现通过单一网络对机械臂进行多任务控制。本发明专利技术通过重新组合网络层中层与层之间的关系,使得网络层中信息共享的更为充分,然后通过权重网络,自动选择每个任务的最佳路径,输出每个模块被选择的概率。因此,这种结构可以尽可能地获得多任务关系带来的好处。此外,在学习方法中加入了样本修正的模块,以避免当前策略与样本不符合造成策略更新出现问题。

【技术实现步骤摘要】

本专利技术属于机械臂运动控制,尤其涉及一种基于平行重组网络的机械臂多任务强化学习方法


技术介绍

1、近年来,涌现出使用深度强化学习算法(如q-learning、ddpg、dqn等)来进行机械臂运动控制任务。然而,许多研究人员主要关注于单一任务中的深度强化学习方法,这种方法的学习效率较低,而且在面对不同任务时需要重新训练算法。所以大量研究人员设计了许多新的多任务强化学习训练方法,但难以解决多任务训练中的信息共享和样本利用问题。导致这些方法在训练过程中往往收敛速度较慢,难以实现全局最优的机械臂自主机动决策,无法满足实际应用中对实时性和高效性的要求。


技术实现思路

1、针对现有技术中的上述不足,本专利技术提供的一种基于平行重组网络的机械臂多任务强化学习方法,解决了现有依靠单一策略网络的深度强化学习算法控制机械臂完成多个任务的技术问题。

2、为了达到以上目的,本专利技术采用的技术方案为:一种基于平行重组网络的机械臂多任务强化学习方法,包括以下步骤:

3、s1、构建基于平行重组网络的机械臂多任本文档来自技高网...

【技术保护点】

1.一种基于平行重组网络的机械臂多任务强化学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于平行重组网络的机械臂多任务强化学习方法,其特征在于,所述S1包括以下步骤:

3.根据权利要求2所述的基于平行重组网络的机械臂多任务强化学习方法,其特征在于,所述多任务强化学习模型PR中的主网络的表达式如下:

4.根据权利要求2所述的基于平行重组网络的机械臂多任务强化学习方法,其特征在于,所述构建样本修正模块的强化学习模型,其具体如下:

5.根据权利要求4所述的基于平行重组网络的机械臂多任务强化学习方法,其特征在于,所述当前策略的行动决...

【技术特征摘要】

1.一种基于平行重组网络的机械臂多任务强化学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于平行重组网络的机械臂多任务强化学习方法,其特征在于,所述s1包括以下步骤:

3.根据权利要求2所述的基于平行重组网络的机械臂多任务强化学习方法,其特征在于,所述多任务强化学习模型pr中的主网络的表达式如下:

4.根据权利要求2所述的基于平行重组网络的机械臂多任务强化学习方法,其特征在于,所述构建样本修正模块的强化学习...

【专利技术属性】
技术研发人员:刘满禄张清波钱卫民曹芩滔黄林宋志豪
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1