【技术实现步骤摘要】
一种基于差分演化算法的QMIX超网络参数优化方法及装置
[0001]本专利技术属于人工智能
,具体涉及一种基于差分演化算法的QMIX超网络参数优化方法及装置。
技术介绍
[0002]多智能体强化学习(Multi
‑
Agent Reinforcement Learning,简称MARL)是近年来人工智能领域的研究热点与难点,并且其环境所具有的部分可观察、联合动作空间维度庞大、不稳定性等特点,使得协同多智能体系统进行学习的控制策略仍具有挑战性。
[0003]目前主流的多智能体算法主要分为Communication和Cooperation两类,第一种类型通过建立智能体之间的媒介进行通信,进而促进智能体之间的协同作用,Peng等人在双向循环神经网络的基础上提出了双向协调网络(Bilateral Complementary Network,简称BiCNet)通信协作框架,它在个体行为上使用了深度确定性策略梯度(Deep Deterministic Policy Gradient,简称DDPG)算法代替基
【技术保护点】
【技术特征摘要】
1.一种基于差分演化算法的QMIX超网络参数优化方法,其特征在于,包括:构建QMIX超网络模型;其中,所述QMIX超网络模型包含超网络、联合Q值网络、单智能体网络DRQN,所述单智能体DRQN网络用于根据每个智能体的当前动作和观测序列信息生成每个智能体对应的Q值,所述超网络用于根据当前环境的状态信息输出联合Q值网络的网络参数,所述联合Q值网络用于根据所述联合Q值网络的网络参数和每个智能体对应的Q值输出最终的联合Q值;根据所述超网络输出的联合Q值网络的网络参数构建个体,采用差分演化算法根据构建的个体优化所述超网络输出的联合Q值网络的网络参数,根据优化后的所述超网络输出的联合Q值网络的网络参数优化整体QMIX超网络模型的网络参数。2.根据权利要求1所述的基于差分演化算法的QMIX超网络参数优化方法,其特征在于,所述超网络包括两个单层线性网络;对应的,所述超网络输出的联合Q值网络的网络参数包括第一网络权重、第二网络权重、第一网络偏置和第二网络偏置;其中,所述第一网络权重和所述第二网络权重由两个单层线性网络经过绝对值激活函数计算得到;所述第一网络偏置由一个单层线性网络计算得到,所述第二网络偏置由两个单层线性网络计算得到的。3.根据权利要求1所述的基于差分演化算法的QMIX超网络参数优化方法,其特征在于,所述单智能体DRQN网络包括依次连接的第一MLP模块、GRU模块、第二MLP模块和策略模块;其中,依次连接的第一MLP模块、GRU模块、第二MLP模块,用于根据每个智能体的当前动作和观测序列信息生成每个智能体自身分解拟合后的Q值;所述策略模块,用于根据所述单智能体自身分解拟合后的Q值,并利用ε
‑
greedy策略对应输出每个单智能体网络的输出;每个单智能体网络的输出包括其Q值和动作选择。4.根据权利要求1所述的基于差分演化算法的QMIX超网络参数优化方法,其特征在于,所述联合Q值网络包括输入层、隐藏层、输出层;所述隐藏层的网络参数为所述超网络输出的联合Q值网络的网络参数。5.根据权利要求1所述的基于差分演化算法的QMIX超网络参数优化方法,其特征在于,根据所述超网络输出的联合Q值网络的网络参数构建的个体表示为:其中,x
i
表示第i个所述超网络输出的联合Q值网络的网络参数对应构建的个体,分别表示第i个所述超网络输出的联合Q值网络的网络参数中第一网络权重的权重和偏置,分别表示第i个所述超网络输出的联合Q值网络的网络参数中第二网络权重的权重和偏置,分别表示第i个所述超网络输出的联合Q值网络的网络参数中第一网络偏置的权重和偏置,分别表示第i个所述超网络输出的联
合Q值网络的网络参数中第二网络偏置的权重和偏置。6.根据权利要求1所述的基于差分演化算法的QMIX超网络参数优化方法,其...
【专利技术属性】
技术研发人员:曹子建,李骁,傅妍芳,贾浩文,郭瑞麒,胡秀华,
申请(专利权)人:西安工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。