一种基于平行重组网络的机械臂多任务强化学习方法技术

技术编号：41328234 阅读：4 留言：0更新日期：2024-05-13 15:06

本发明专利技术提供了一种基于平行重组网络的机械臂多任务强化学习方法，属于机械臂运动控制技术领域，该方法包括构建基于平行重组网络的机械臂多任务强化学习模型PR‑SAC，并进行训练；利用已训练的机械臂多任务强化学习模型PR‑SAC对机械臂进行控制，以实现通过单一网络对机械臂进行多任务控制。本发明专利技术通过重新组合网络层中层与层之间的关系，使得网络层中信息共享的更为充分，然后通过权重网络，自动选择每个任务的最佳路径，输出每个模块被选择的概率。因此，这种结构可以尽可能地获得多任务关系带来的好处。此外，在学习方法中加入了样本修正的模块，以避免当前策略与样本不符合造成策略更新出现问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机械臂运动控制，尤其涉及一种基于平行重组网络的机械臂多任务强化学习方法。

技术介绍

1、近年来，涌现出使用深度强化学习算法（如q-learning、ddpg、dqn等）来进行机械臂运动控制任务。然而，许多研究人员主要关注于单一任务中的深度强化学习方法，这种方法的学习效率较低，而且在面对不同任务时需要重新训练算法。所以大量研究人员设计了许多新的多任务强化学习训练方法，但难以解决多任务训练中的信息共享和样本利用问题。导致这些方法在训练过程中往往收敛速度较慢，难以实现全局最优的机械臂自主机动决策，无法满足实际应用中对实时性和高效性的要求。

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的一种基于平行重组网络的机械臂多任务强化学习方法，解决了现有依靠单一策略网络的深度强化学习算法控制机械臂完成多个任务的技术问题。

2、为了达到以上目的，本专利技术采用的技术方案为：一种基于平行重组网络的机械臂多任务强化学习方法，包括以下步骤：

3、s1、构建基于平行重组网络的机械臂多任务强化学习模型pr-sac，并进行训练；

4、s2、利用已训练的机械臂多任务强化学习模型pr-sac对机械臂进行控制，以实现通过单一网络对机械臂进行多任务控制，完成机械臂多任务的强化学。

5、本专利技术的有益效果是：本专利技术利用pr（parallel recombination，平行重组）网络模型，在不同网络层中实现不同任务的信息共享，以及利用sam(

6、进一步地，所述s1包括以下步骤：

7、s101、分别构建平行重组网络的多任务强化学习模型pr和样本修正模块的强化学习模型；

8、s102、结合多任务强化学习模型pr与样本修正模块的强化学习模型，生成基于平行重组网络的最优多任务强化学习模型；

9、s103、将最优多任务强化学习模型与强化学习算法sac相结合，生成基于平行重组网络的机械臂多任务强化学习模型pr-sac；

10、s104、初始化多任务强化学习网络参数，对多个机械臂任务分别创建训练所需的线程；

11、s105、将每个机械臂任务的状态与区分任务的独热码onehot向量输入至基于平行重组网络的机械臂多任务强化学习模型pr-sac，并利用基于平行重组网络的机械臂多任务强化学习模型pr-sac输出每个机械臂任务对应的动作 a；

12、s106、通过机械臂执行动作 a，获取对应机械臂任务的下一时刻状态及奖励值，并将经验样本存储至基于平行重组网络的机械臂多任务强化学习模型pr-sac的经验回放池，其中，每个任务在经验回放池中均有对应的位置；

13、s107、从基于平行重组网络的机械臂多任务强化学习模型pr-sac的经验回放池中随机抽取 n组数据组，并利用抽取的 n组数据组对基于平行重组网络的机械臂多任务强化学习模型pr-sac进行训练；

14、s108、依次循环在每个机械臂任务中训练多次，直至基于平行重组网络的机械臂多任务强化学习模型pr-sac收敛，得到已训练的基于平行重组网络的机械臂多任务强化学习模型pr-sac。

15、上述进一步方案的有益效果是：本专利技术通过利用平行重组网络的多任务强化学习模型pr和样本修正模块的强化学习模型，构建并训练基于平行重组网络的机械臂多任务强化学习模型pr-sac，解决了机械臂在多任务强化学习中信息共享不充分和样本利用率过低的问题，仅依靠单一网络训练就能达到良好的训练效果，实现方法简单高效果。

16、再进一步地，所述多任务强化学习模型pr中的主网络的表达式如下：

17、；；其中，表示第层的第个子模块的输入特征向量，表示主网络最后一层网络的输出特征向量，表示多任务强化学习模型pr中的网络层数，表示多任务强化学习模型pr中的网络层最后一层，表示多任务强化学习模型pr的第个子模块向第层的第个子模块输出特征向量的权重，表示多任务强化学习模型pr的第个子模块的全连接层， relu表示非线性激活函数，表示平行重组后的多任务强化学习模型pr 的第个子模块的输出特征向量，表示每一层网络包含个子模块，表示多任务强化学习模型pr的第个子模块向最后一层网络的第个子模块输出特征向量的权重，表示最后一层网络第个子模块的全连接层，表示最后一层网络中第个子模块的输出特征向量；

18、所述多任务强化学习模型pr中的权重网络的表达式如下：；；；；其中，表示和点积操作后的特征向量，表示状态经过两层全连接网络和 relu 激活函数后的特征信息向量，表示经过两层全连接网络和relu激活函数的特征信息向量，表示不同的任务，表示第一层权重网络未经过 softmax 函数归一化的权重，表示第一层全连接神经网络，表示主网络中第一层网络的第个子模块向第二层网络的第个子模块输出信息的权重，表示权重网络的第层的输出，和分别表示一层全连接神经网络，表示前一层权重网络未经过 softmax 函数归一化的权重，表示第一层权重网络未经过 softmax 函数归一化的权重。

19、上述进一步方案的有益效果是：通过改进网络层之间的表示，将顺序网络更改为平行重组网络，提高了网络层之间的信息共享能力，使得网络学习到的信息更多更充分。同时路由网络能更好的针对每个任务选择对应的网络路线，实现了多任务强化学习的可行性。

20、再进一步地，所述构建样本修正模块的强化学习模型，其具体如下：

21、a1、通过当前策略选择对应的机械臂执行动作；

22、a2、利用抽样，从经验回放池中选取机械臂执行动作，并根据机械臂执行动作，计算得到当前策略的行动决策和过去策略的行动决策的偏差；

23、a3、根据计算得到的偏差，通过构建多元高斯分布表示各批次之间的行为动作差异；

24、a4、根据行为动作差异，计算得到当前策略的行动决策和过去决策之间的差异度量；

25、a5、将差异度量的度量值进行归一化处理，完成对样本修正模块的强化学习模型的构建。

26、上述进一步方案的有益效果是：通过构建当前策略的行动决策和过去策略的行动决策的偏差的数学模型，能够知道哪些样本适合当前网络的训练，提高整体的样本利用率。

27本文档来自技高网...

【技术保护点】

1.一种基于平行重组网络的机械臂多任务强化学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于平行重组网络的机械臂多任务强化学习方法，其特征在于，所述S1包括以下步骤：

3.根据权利要求2所述的基于平行重组网络的机械臂多任务强化学习方法，其特征在于，所述多任务强化学习模型PR中的主网络的表达式如下：

4.根据权利要求2所述的基于平行重组网络的机械臂多任务强化学习方法，其特征在于，所述构建样本修正模块的强化学习模型，其具体如下：

5.根据权利要求4所述的基于平行重组网络的机械臂多任务强化学习方法，其特征在于，所述当前策略的行动决策和过去决策之间的差异度量的表达式如下：

6.根据权利要求2所述的基于平行重组网络的机械臂多任务强化学习方法，其特征在于，所述基于平行重组网络的机械臂多任务强化学习模型PR-SAC的目标函数表达式如下：

7.根据权利要求1所述的基于平行重组网络的机械臂多任务强化学习方法，其特征在于，所述S2包括以下步骤：

【技术特征摘要】

1.一种基于平行重组网络的机械臂多任务强化学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于平行重组网络的机械臂多任务强化学习方法，其特征在于，所述s1包括以下步骤：

3.根据权利要求2所述的基于平行重组网络的机械臂多任务强化学习方法，其特征在于，所述多任务强化学习模型pr中的主网络的表达式如下：

4.根据权利要求2所述的基于平行重组网络的机械臂多任务强化学习方法，其特征在于，所述构建样本修正模块的强化学习...

【专利技术属性】
技术研发人员：刘满禄，张清波，钱卫民，曹芩滔，黄林，宋志豪，
申请(专利权)人：西南科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人