一种基于强化学习的多智能体容错一致性方法及系统技术方案

技术编号:31829143 阅读:33 留言:0更新日期:2022-01-12 13:03
本发明专利技术提供了一种基于强化学习的多智能体容错一致性方法及系统,本发明专利技术方法:S1:建立系统网络拓扑,设计奖励函数;S2:智能体之间交互:根据设计的奖励函数,逐步调整相邻智能体权重,直至正常智能体状态达成一致。本发明专利技术通过引入MARL的试错思想,即不断地尝试,并采用一种可应用于解决多智能体容错一致性问题的算法D

【技术实现步骤摘要】
一种基于强化学习的多智能体容错一致性方法及系统


[0001]本专利技术属于强化学习和容错控制
,尤其涉及一种基于强化学习的多智能体容错一致性方法及系统。

技术介绍

[0002]近年来,多智能体技术广泛应用于现代基础设施系统中,如交通系统、电网、无线通信网络、医疗保健设备等领域。然而,实际应用中不可预测的环境以及智能体内部故障等问题都给多智能体系统带来了诸多挑战。容错一致性是指在多智能体系统中,当含有错误输入数据时,智能体仍能通过彼此间的交互达到状态的一致。
[0003]在多智能体系统中,直接实现多智能体容错一致性(multi

agent resilient consensus,MARC)的方法是去除故障智能体。假设已知网络中故障智能体的最大数量,此时每个智能体从邻居智能体接收到的状态信息集合中丢弃其中的最大值和最小值。该方法称为Mean Subsequence Reduced(MSR)算法,同时其衍生的Weighted Mean Subsequence Reduced(W

>MSR)算法,能够本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的多智能体容错一致性方法,其特征在于:包括如下步骤:S1:建立系统网络拓扑,设计奖励函数;S2:智能体之间交互:根据设计的奖励函数,逐步调整相邻智能体权重,直至正常智能体状态达成一致。2.如权利要求1所述一种基于强化学习的多智能体容错一致性方法,其特征在于:步骤S1具体如下:由n个智能体组成的网络,标记为1,2,

n;网络关系使用有向图G=(V
×
E)表示,其中V={1,2,

n}表示智能体集合,n}表示智能体集合,用于描述智能体的连接关系;如果智能体i能从智能体j接收到信息,则智能体i有一条从智能体j到智能体i的边,即智能体j是智能体i的邻居节点,智能体i的邻居集合由N
i
={j|(j,i)}∈E表示;整个网络由三种智能体组成,包括正常智能体集合V
n
,随机状态值故障智能体集合V
p
,常值状态值故障智能体集合V
c
,V=V
n
∪V
p
∪V
c
;针对智能体i来说,定义其对邻居智能体j在k时刻的权重为α
ij,k
,在k时刻的状态为x
i,k
,在k时刻的奖励值为r
i,k
;其次,智能体i状态与其邻居智能体j的状态集合称为智能体i的强化学习输入状态,简称为输入状态,并用s
i,k
表示,其中再次,在k时刻的智能体i对所有邻居智能体权重集合称为强化学习行为,简称为行为,并用a
i,k
表示,其中表示,其中此外,s表示样本轨迹数量,τ表示一个轨迹,γ表示折扣因子,用R
τ
表示强化学习奖励,即智能体在一个轨迹内的总奖励值,简称总奖励值,其中3.如权利要求2所述一种基于强化学习的多智能体容错一致性方法,其特征在于:步骤S2具体如下:S21,根据权重参数θ
i
随机初始化策略网络S22,随机初始化所有智能体在k时刻的状态以及对邻居智能体j在k时刻的权重,将总奖励值R
τ

【专利技术属性】
技术研发人员:侯健邱鹏鹏王方圆
申请(专利权)人:浙江理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1