一种基于多智能体强化学习的货物运输系统技术方案

技术编号:23767498 阅读:69 留言:0更新日期:2020-04-11 20:37
本发明专利技术涉及一种基于多智能体强化学习的货物运输系统,包括:包括货运智能体、分组模块和模型构建模块;所述分组模块用于获取每个货运智能体的位置坐标,并根据动态分组算法对所有货运智能体进行分组,得到至少一个货运智能体小组;模型构建模块用于通过隐性赋予权重算法对每个货运智能体小组中的货运智能体进行权重划分,对货运智能体小组内的多个货运智能体进行隐式协调控制;采用多智能体深度确定性策略梯度算法的集中式评论家方式构建神经网络,通过神经网络生成多货运智能体的优化路径,货运智能体小组中的货运智能体根据该优化路径绕过障碍物并到达地标。本发明专利技术能够处理数量多、通信信息量大的货运智能体,其性能好、效率高且成本低。

A cargo transportation system based on Multi-Agent Reinforcement Learning

【技术实现步骤摘要】
一种基于多智能体强化学习的货物运输系统
本专利技术属于多智能体系统
,特别涉及一种基于多智能体强化学习的货物运输系统。
技术介绍
随着人工智能、通信及信息等技术的发展,多智能体的研究近年来一直是很多人关注的研究热点。多智能体系统可以被广泛应用于公共设施检测、灾难环境调查、军事侦察、仓储搬运等领域,无论在军用还是民用方面都得到了广泛应用。在货物运输过程中,使多个货运智能体能够智能的规划路线,以到达多个不同的位置放置货物,是一个十分重要的问题,因为这样能够加快运货的效率,同时减少人力成本,现在也越来越成为一个研究的重点方向。其中货运智能体和障碍间的相对距离的控制往往至关重要,多货运智能体之间精确地相对距离权重控制可以保证系统内部成员之间的防碰撞。尤其是在外部产生很大的干扰时,比如货运智能体遇到阵风、地面货运智能体遇到负载变化等一些外部干扰时,如何使系统可以表现出很强的适应性和鲁棒性,保证多货运智能体之间的距离控制也成为多智能体系统在实际应用过程中需要关注的问题。现有技术中,申请号201811581645.3中公开一种应用于多智本文档来自技高网...

【技术保护点】
1.一种基于多智能体强化学习的货物运输系统,其特征在于,包括货运智能体、分组模块和模型构建模块;/n所述货运智能体的数量为至少两个,且每个货运智能体分别包括相应的地标和至少一个障碍物;/n所述分组模块用于获取每个货运智能体的位置坐标,并根据动态分组算法对所有货运智能体进行分组,得到至少一个货运智能体小组,每个货运智能体小组中分别包括至少两个货运智能体;/n模型构建模块:用于通过隐性赋予权重算法对每个货运智能体小组中的货运智能体进行权重划分,对货运智能体小组内的多个货运智能体进行隐式协调控制;采用多智能体深度确定性策略梯度算法的集中式评论家方式构建神经网络,通过所述神经网络生成多货运智能体的优化...

【技术特征摘要】
1.一种基于多智能体强化学习的货物运输系统,其特征在于,包括货运智能体、分组模块和模型构建模块;
所述货运智能体的数量为至少两个,且每个货运智能体分别包括相应的地标和至少一个障碍物;
所述分组模块用于获取每个货运智能体的位置坐标,并根据动态分组算法对所有货运智能体进行分组,得到至少一个货运智能体小组,每个货运智能体小组中分别包括至少两个货运智能体;
模型构建模块:用于通过隐性赋予权重算法对每个货运智能体小组中的货运智能体进行权重划分,对货运智能体小组内的多个货运智能体进行隐式协调控制;采用多智能体深度确定性策略梯度算法的集中式评论家方式构建神经网络,通过所述神经网络生成多货运智能体的优化路径,所述货运智能体小组中的货运智能体根据该优化路径绕过障碍物并到达地标。


2.根据权利要求1所述的基于多智能体强化学习的货物运输系统,其特征在于,还包括设置模块,所述设置模块用于设定货运智能体的移动动作空间和状态空间,并设置环境中的奖惩机制。


3.根据权利要求2所述的基于多智能体强化学习的货物运输系统,其特征在于,所述设定货运智能体的移动动作空间和状态空间,具体为:
设定所述货运智能体的状态为单个网格的位置坐标,用网格对角线交点的x,y坐标写成二维数组形式表示;设定货运智能体可以360度自由移动,每个货运智能体位于地图上的不同位置,并且有相应的地标和障碍物。


4.根据权利要求2所述的基于多智能体强化学习的货物运输系统,其特征在于,所述环境中的奖惩机制为当货运智能体达到设定状态时,环境所给予的奖惩回报;所述奖惩机制包括:令各货运智能体应与其它货运智能体以及障碍物保持设定距离,若违背给予惩罚;根据各货运智能体与所要到达地标之间的距离关系,按照货运智能体与各个地标的最小距离给与相应大小的奖励。


5.根据权利要求1至4任一项所述的基于多智能体强化学习的货物运输系统,其特征在于,所述通过隐性赋予权重算法对每个货运智能体小组中的货运智能体进行权重划分,对货运智能体小组内的多个货运智能体进行隐式协调控制具体包括:
对于每一个货运智能体,都需要4个视角,分别为:每个货运智能体自身信息对应的一个视角、另一个货运智能体信息对应的两个视角、所有货运智能体信息对应的一个视角;每个货运智能体在不同的视角下,根据多智能体深度确定性策略梯度算法的集中式评论家Q值的大小隐私赋予权重;所述集中式评论家由全连接的神经网络组成,每次都使用所有货运智能体信息产生一个Q值,根据当前状态与下一个状态产生Q值的不同推动梯度更新,进而训练神经网络并生成策略,所有货运智能体根据该策略分布式执行。


6.根据权利要求5所述的基于多智能体强化学习的货物运输系统,其特征在于,所述神经网络使用深度Q网络中的经验池和双网络结构促进神经网络学习路径知识,将所述货运智能体看作是算法中的Actor,每个Actor对应一个Critic,Critic观测各个货运智能体并给出对应智能体的路径状态建议,进行策略更新。


7.根据权利要求6所述的基于多智能体强化学习的货物运输系统,其...

【专利技术属性】
技术研发人员:姜元爽宁立张涌冯圣中
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1