基于深度强化学习的多任务多机器人的运动控制方法技术

技术编号:42981467 阅读:27 留言:0更新日期:2024-10-15 13:16
本发明专利技术提供一种基于深度强化学习的多任务多机器人的运动控制方法,属于机器人运动控制技术领域,包括:确定上下文信息,其中,上下文信息用于指示多个机器人的待执行任务;发送上下文信息至多个机器人中的每个机器人,以驱动多个机器人中的每个机器人执行对应的决策动作。本发明专利技术提供的基于深度强化学习的多任务多机器人的运动控制方法,解决了相关技术中的基于深度强化学习的多任务多机器人的运动控制方法,在面对不同的任务时的泛化能力不足,导致处理多任务的效率较低的问题,提高了多任务处理过程的效率。

【技术实现步骤摘要】

本专利技术涉及机器人运动控制,尤其涉及一种基于深度强化学习的多任务多机器人的运动控制方法


技术介绍

1、多机器人运动控制是指通过设计合理的控制策略和算法,使得多个机器人在执行共同任务时能够保持协调一致,实现高效、准确的运动。深度强化学习(deepreinforcement learning, drl)是一种结合了深度学习和强化学习的技术,在多任务多机器人的运动控制中,drl可以应用于路径规划、动作决策、任务分配等多个方面。

2、相关技术中,基于深度强化学习的多任务多机器人的运动控制方法往往局限于特定的单一任务,在面对不同的任务时,神经网络模型通常需要进行重新训练,其泛化能力不足,导致处理多任务的效率较低。


技术实现思路

1、本专利技术提供一种基于深度强化学习的多任务多机器人的运动控制方法,用以解决相关技术中的基于深度强化学习的多任务多机器人的运动控制方法,在面对不同的任务时的泛化能力不足,导致处理多任务的效率较低的问题。

2、本专利技术提供一种基于深度强化学习的多任务多机器人的运动控本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,包括:

2.根据权利要求1所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述独立Q网络包括第一多层感知机、第二多层感知机、预训练语言模型、第一交叉注意力机制模块、第二交叉注意力机制模块以及多个首尾相连的自注意力机制模块;

3.根据权利要求1所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述个体价值估计向量包括一组个体价值,所述一组个体价值中的每个个体价值对应所述多个决策动作中的一个决策动作;

4.根据权利要求1至3中任一项所述的基于深度强化学习的...

【技术特征摘要】

1.一种基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,包括:

2.根据权利要求1所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述独立q网络包括第一多层感知机、第二多层感知机、预训练语言模型、第一交叉注意力机制模块、第二交叉注意力机制模块以及多个首尾相连的自注意力机制模块;

3.根据权利要求1所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述个体价值估计向量包括一组个体价值,所述一组个体价值中的每个个体价值对应所述多个决策动作中的一个决策动作;

4.根据权利要求1至3中任一项所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,在所述确定上下文信息之前,所述方法还包括:

5.根据权利要求4所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述历史数据还包括历史时间段中所有时刻的全局状态和奖励信号,所述机器人网络还包括联合q网络...

【专利技术属性】
技术研发人员:朱圆恒左斌斌黄上京
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1