基于强化组织控制的多智体系统自组织方法及系统技术方案

技术编号:32541497 阅读:33 留言:0更新日期:2022-03-05 11:38
一种基于强化组织控制的多智体系统自组织方法及系统,通过二元决策将大规模自动分拣任务中分拣机器人集群的自组织问题建模为一个多智体强化学习问题,每个智能体能够通过二元决策单元自发地决定是否与邻近智能体组成系统,将传统图论算法用于智能体的自组织问题中,而最终能够提升自动分拣任务完成的时间效率以及任务完成度。本发明专利技术能够保证系统内紧密协作、实现对复杂协作任务的分治,从而有效提升学习算法在应用到大规模多智体系统的可扩展性。展性。展性。

【技术实现步骤摘要】
基于强化组织控制的多智体系统自组织方法及系统


[0001]本专利技术涉及的是一种仓储自动化领域的技术,具体是一种基于强化组织控制的多智体系 统自组织方法及系统,该系统被应用于求解仓储自动化领域中分拣机器人集群的大规模自动分 拣任务中。

技术介绍

[0002]现有的多智体强化学习算法大多遵循中心化训练

去中心化执行框架。在中心化训练阶 段,智能体需要通过共享局部观测、参数或梯度等来学习去中心化的策略。然而,由于中心化 控制器的存在,使得现有算法无法扩展到大规模的多智体系统中,而需要协同完成大规模分拣 任务的分拣机器人集群则组成了一个典型的大规模多智体系统。在人类社会中,群体在完成复 杂的协作任务时,人类会自发地根据外部环境的变化以及任务进度形成众多系统,通过系统内 部紧密协作将复杂任务分而治之。因此,为了使得算法能够具有良好的可扩展性,一个亟待解 决的问题是,智能体如何并发地组成系统,且系统的构成能够适应外部环境变化。现有方法主 要通过启发式规则或端到端黑盒优化来进行智能体分组,因而很难学到具有良好适应性的动态 组队策略。...

【技术保护点】

【技术特征摘要】
1.一种基于强化组织控制的多智体系统自组织方法,其特征在于,通过构建并随机初始化组织控制网络及多智体决策网络,通过组织控制网络对每个作为智能体的分拣机器人的局部观测生成对应的二元决策,并据其将多智体组成的系统建模为有向图后,从中提取所有的弱连通分量以对智能体分组;然后通过多智体决策网络根据每个智能体系统的联合观测,为所有智能体生成决策动作,并与环境进行交互得到每个智能体各自的奖励反馈;再通过组织控制网络以及多智体决策网络根据奖励计算出组织控制损失及决策损失,从而对组织控制网络及多智体决策网络进行优化;最终分拣机器人集群将在完成大规模分拣任务中自发地、动态地、合理地进行分组,将大规模分拣任务分解为独立的小规模子任务,智能体系统内将通过多智体强化学习方法产生高效的协作策略,从而有效地完成各个子任务,最终实现在大规模自动分拣任务中快速达到较高的任务完成度;所述的二元决策是指:每个智能体i的二元决策空间属于一个m维的二元决策向量,该二元向量表示智能体i根据其局部观测输出的与周围m个最近邻智能体输出的与周围m个最近邻智能体的连接动作,即智能体i与智能体j之间是否应该存在边连接。2.根据权利要求1所述的基于强化组织控制的多智体系统自组织方法,其特征是,所述的组织控制网络为残差神经网络,该网络接收每个智能体,即分拣机器人的局部观测作为输入,输出每个智能体的动态组队策略,即是否与邻近智能体组成系统的二元决策;所述的多智体决策网络为残差神经网络,该网络根据每个系统中所有智能体的联合观测,为系统中所有智能体生成决策动作。3.根据权利要求1或2所述的基于强化组织控制的多智体系统自组织方法,其特征是,所述的组织控制网络包括:一个上采样层、五个卷积层和一个平均池化层,其中:上采样层将每个分拣机器人14
×
14的二维局部观测矩阵上采样到224
×
224大小,再经过64个7
×
7大小、步长为2的卷积核卷积后,得到112
×
112
×
64的特征图;经过3
×
3、步长为2的最大汇聚后,再经过两次64个3
×
3的卷积核卷积,得到56
×
56
×
64的特征图;再分别经过两次128个3
×
3的卷积核卷积、两次256个3
×
3的卷积核卷积以及两次256个3
×
3的卷积核卷积后,得到7
×7×
512的特征图,最后经过7
×
7的平均汇聚后,得到512维的特征向量;最后经过一层全连接神经网络后,得到2维的二元决策输出;所述的多智体决策网络包括:一个上采样层、五个卷积层和一个平均池化层,其中:上采样层将多智体系统中每个分拣机器人14
×
14的二维局部观测矩阵拼接到一起,形成14
×
14
×
3的联合观测,若系统成员数目小于3,则用0补全;然后将联合观测上采样到224
×
224
×
3大小,再经过64个7
×
7大小、步长为2的卷积核卷积后,得到112
×
112
×
64的特征图;经过3
×
3、步长为2的最大汇聚后,再经过两次64个3
×
3的卷积核卷积,得到5...

【专利技术属性】
技术研发人员:王祥丰李文浩金博朱骏
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1