【技术实现步骤摘要】
本专利技术涉及机器人运动控制,尤其涉及一种基于深度强化学习的多任务多机器人的运动控制方法。
技术介绍
1、多机器人运动控制是指通过设计合理的控制策略和算法,使得多个机器人在执行共同任务时能够保持协调一致,实现高效、准确的运动。深度强化学习(deepreinforcement learning, drl)是一种结合了深度学习和强化学习的技术,在多任务多机器人的运动控制中,drl可以应用于路径规划、动作决策、任务分配等多个方面。
2、相关技术中,基于深度强化学习的多任务多机器人的运动控制方法往往局限于特定的单一任务,在面对不同的任务时,神经网络模型通常需要进行重新训练,其泛化能力不足,导致处理多任务的效率较低。
技术实现思路
1、本专利技术提供一种基于深度强化学习的多任务多机器人的运动控制方法,用以解决相关技术中的基于深度强化学习的多任务多机器人的运动控制方法,在面对不同的任务时的泛化能力不足,导致处理多任务的效率较低的问题。
2、本专利技术提供一种基于深度强化学习的多
...【技术保护点】
1.一种基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,包括:
2.根据权利要求1所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述独立Q网络包括第一多层感知机、第二多层感知机、预训练语言模型、第一交叉注意力机制模块、第二交叉注意力机制模块以及多个首尾相连的自注意力机制模块;
3.根据权利要求1所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述个体价值估计向量包括一组个体价值,所述一组个体价值中的每个个体价值对应所述多个决策动作中的一个决策动作;
4.根据权利要求1至3中任一项所述
...【技术特征摘要】
1.一种基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,包括:
2.根据权利要求1所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述独立q网络包括第一多层感知机、第二多层感知机、预训练语言模型、第一交叉注意力机制模块、第二交叉注意力机制模块以及多个首尾相连的自注意力机制模块;
3.根据权利要求1所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述个体价值估计向量包括一组个体价值,所述一组个体价值中的每个个体价值对应所述多个决策动作中的一个决策动作;
4.根据权利要求1至3中任一项所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,在所述确定上下文信息之前,所述方法还包括:
5.根据权利要求4所述的基于深度强化学习的多任务多机器人的运动控制方法,其特征在于,所述历史数据还包括历史时间段中所有时刻的全局状态和奖励信号,所述机器人网络还包括联合q网络...
【专利技术属性】
技术研发人员:朱圆恒,左斌斌,黄上京,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。