【技术实现步骤摘要】
基于改进Q函数的多智能体一致性强化学习方法及系统
[0001]本专利技术属于多智能体一致性
,具体涉及一种基于改进Q函数的多智能体一致性强化学习方法及系统。
技术介绍
[0002]强化学习作为人工智能的一种,在智能机器人、无人机、电网等各种实际应用中表现出强大的力量和潜力,因为它能够通过与未知环境的交互进行自主决策,以实现累积回报的最大化。
[0003]在实际应用中,基于模型的强化学习和无模型的强化学习方法是一种自学习方法。基于模型的强化学习方法依赖于模型动力学,由于大多数系统的动力学模型不能完全准确的确定,系统多为非线性系统,并且含有干扰,智能体之间相互耦合,再加上智能体之间通信时滞的存在,使得多智能体系统一致性控制更加困难,依赖模型的强化学习方法缺乏对环境变化的快速感知,通常会出现模型误差。无模型的强化学习方法需要选取具有充分探索意义的充沛的数据信息,但实际应用中数据的稀疏性给无模型的强化学习技术带来严峻挑战。
[0004]基于强化学习的异构多智能体一致性控制学习方法有值迭代、策略迭代、策略、非策略 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:包括以下步骤:步骤1、建立线性离散时间异构多智能体系统的动态模型;步骤2、设定异构多智能体系统的领导跟随一致性误差方程,并引入可靠性因子ρ折中非策略Q
‑
学习和策略Q
‑
学习两种学习模式,设计基于改进Q函数的分布式控制协议;步骤3、采用Critic神经网络通过系统动态模型产生的数据自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制。2.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:所述步骤1为:考虑具有N个跟随者和一个领导者的线性离散时间异构多智能体系统,跟随者i的动力学模型为:x
i
(k+1)=A
i
x
i
(k)+B
i
u
i
(k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,x
i
(k)和u
i
(k)分别表示第i个跟随者k(k=1,2,...)时刻的状态和控制输入,A
i
和B
i
分别表示第i个跟随者的系统矩阵和控制矩阵;领导者的动力学模型(即异构多智能体系统中参考轨迹)为:x0(k+1)=A0x0(k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,x0(k)代表领导者k(k=1,2,...)时刻的状态,A0表示领导者的系统矩阵。3.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:步骤2所述设定异构多智能体系统的领导跟随一致性误差方程为:定义第i个跟随者的局部邻居同步误差为:其中,δ
i
(k)表示第i个跟随者的局部邻居同步误差,a
ib
表示跟随者i与跟随者b之间的权重,x
b
(k)表示第b个跟随者k(k=1,2,...)时刻的状态,g
i
(g
i
≥0)表示第i个跟随者与领导者的固定增益,N
i
表示系统拓扑图中跟随者i的邻居节点个数,表示系统拓扑图中跟随者b到跟随者i的所有拓扑关系的总和;定义异构多智能体系统的全局同步误差为:ξ(k)=x(k)
‑
x0(k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,ξ(k)表示异构多智能体系统的全局同步误差,x(k)表示k时刻N个跟随者的全局状态,T表示向量转置,x0(k)表示k时刻每一个跟随者对应的领导者的全局状态,全局同步误差ξ(k)与全局邻居同步误差δ(k)之间存在如下关系为:其中,L表示系统拓扑图的拉普拉斯矩阵,I
n
表示一个n维的单位矩阵,g=diag{g
i
}∈R
N
×
N
表示一个固定增益的对角矩阵,表示克罗内克积。对于其中任意一个跟随者i,定义其性能指标为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。