一种面向多智能体强化学习能源系统的鲁棒对抗训练框架技术方案

技术编号:37957021 阅读:7 留言:0更新日期:2023-06-30 09:30
本发明专利技术涉及一种面向多智能体强化学习能源系统的鲁棒对抗训练框架,包括:构造一个对抗智能体以生成对抗攻击,并建模为对抗性部分可观察的随机博弈系统;固定经过预训练的被害多智能体策略,训练一个最优的确定性对抗策略来产生有界扰动;固定最优的对抗攻击策略,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性。本发明专利技术的有益效果是:本发明专利技术将对抗性攻击建模为一个基于单智能体强化学习的攻击对手,并学习得到考虑攻击约束的最强攻击策略。从数学上,将该问题构建为对抗马尔可夫博弈,并通过鲁棒对抗训练提高基于多智能体强化学习的综合能源管理系统的性能。学习的综合能源管理系统的性能。学习的综合能源管理系统的性能。

【技术实现步骤摘要】
一种面向多智能体强化学习能源系统的鲁棒对抗训练框架


[0001]本专利技术涉及电力系统安全防御领域,更确切地说,它涉及一种面向多智能体强化学习能源系统的鲁棒对抗训练框架。

技术介绍

[0002]随着社会经济的发展和能源需求的增长,电力系统正在经历从化石燃料到清洁能源的规划和运行的根本性革命。在能源互联网快速发展的背景下,电、气、热、冷等多种能源耦合协调的综合能源系统可实现多能互补,促进可再生能源消纳,提升能源利用效率,缓解供需不平衡。相较于传统电力系统,综合能源系统的能量流动更加复杂,其运行调控涉及更复杂的负荷需求、供应装置和运行方式。能源需求、供应和存储相互高度耦合的新特征,将引起系统运行方式和动态特性复杂性提高、源荷双侧不确定性加剧、仿真系统数学模型变量与维数增多、安全稳定裕度减小等问题,从而致使基于数学模型机理的传统综合能源管理方法难以满足在线评估与实时控制的需求。为此,以多智能体强化学习为核心的数据驱动综合能源管理方法应运而生。随着信息和通信技术的融合,基于多智能体强化学习的综合能源管理系统其安全性与脆弱性问题更加不容小觑。综合能源管理系统的通信网络,包括监控和数据采集网络和智能电表等设备,都很容易受到恶意网络行为者的攻击。

技术实现思路

[0003]本专利技术的目的是克服现有技术中的不足,提供了一种面向多智能体强化学习能源系统的鲁棒对抗训练框架。本专利技术通过鲁棒对抗训练增强基于多智能体强化学习的综合能源管理系统对对抗攻击的抵御能力。首先构建了一个对手智能体,其目标是通过制定对抗攻击、造成控制系统的最差表现,将系统建模为一个对抗的部分可观察随机博弈系统;接着训练该对手智能体,以学习一个最优的确定性对抗攻击策略来产生有界扰动;最后对被害的多智能体强化学习综合能源管理系统采用鲁棒对抗训练,以增强模型鲁棒性。
[0004]第一方面,提供了一种面向多智能体强化学习能源系统的鲁棒对抗训练框架,包括:
[0005]步骤1、构造一个对抗智能体以生成对抗攻击,并建模为对抗性部分可观察的随机博弈系统;
[0006]步骤2、固定经过预训练的被害多智能体策略,训练一个最优的确定性对抗策略来产生有界扰动;
[0007]步骤3、固定最优的对抗攻击策略,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性。
[0008]作为优选,步骤1包括:
[0009]步骤1.1,将基于多智能体强化学习的综合能源管理系统表述为部分可观察的随机博弈问题,每个智能体控制一个建筑,通过优化所有智能体的策略以使得整个团队的累积奖励最大化:
[0010]<N,S,{A
i
}
i∈N
,P,{R
i
}
i∈N
,γ,{O
i
}
i∈N
,Z>
[0011]其中,N是智能体数量,S是环境状态,A
i
是第i个智能体的动作空间,{A
i
}
i∈N
是联合动作空间,定义为A=A1×…×
A
N
;P:S
×
A
×
S

Δ(S)是任意t时刻给定动作下从状态s
t
到下一个t+1时刻状态s
t+1
的状态转移概率;是第i个智能体从(s
t
,a
t
)到下一时刻状态s
t+1
的及时反馈奖励;γ是折扣因子;O
i
是第i个智能体的观测空间,联合观测空间是{O
i
}
i∈N
,定义为O=O1×…×
O
N
;Z:S
×
A

Δ(O)是任意t时刻联合观测o
t
∈O在任意动作a
t
下,状态s
t
的观测概率;
[0012]在t时刻,每个智能体i根据观测通过策略选择动作然后,环境根据状态转移概率P移动到下一个状态,s
t+1
~P(
·
|s
t
,a
t
);每个智能体i获得奖励和新的局部观测
[0013]步骤1.2、在所述综合能源管理系统中引入一个对手智能体,通过生成最强对抗攻击引起模型最差性能,将这个系统建模为对抗性部分可观察的随机博弈问题:
[0014]<N,S,A
adv
,{A
i
}
i∈N
,P,{R
i
}
i∈N
,R
adv
,γ,{O
i
}
i∈N
,Z>
[0015]其中N是受害智能体数量,S是环境状态,A
adv
和R
adv
分别是攻击者的行动空间和奖励函数;A
i
是第A个受害智能体的动作空间,{A
i
}
i∈N
是联合动作空间,定义为A=A1×…×
A
N
;P:S
×
A
adv
×
A
×
S

Δ(S)是任意t时刻给定动作和A
adv
下从状态s
t
到下一个时刻状态s
t+1
的状态转移概率;是第i个智能体从(s
t
,a
t
)到下一时刻状态s
t+1
的及时反馈奖励;γ是折扣因子;O
i
是第i个智能体的观测空间,联合观测空间是{O
i
}
i∈N
,定义为O=O1×…×
O
N
;Z:S
×
A

Δ(O)是任意t时刻联合观测o
t
∈O在任意动作a
t
下,状态s
t
的观测概率。
[0016]作为优选,步骤2包括:
[0017]步骤2.1、固定已预训练的正常被害多智能体系统策略参数θ
i
表示每个智能体策略的模型参数,训练一个对抗智能体策略u
φ
,φ是攻击智能体的策略参数来模拟对抗攻击并威胁其中一个智能体,其生成的攻击为:
[0018][0019]其中,δ
t
是生成的对特定智能体观测的攻击向量,是要攻击的智能体的观测,B(o
j
)是扰动的边界约束;被害智能体j的输入表示为:
[0020][0021]受害者策略基于扰动观察做出决策:
[0022][0023]其中是被攻击后多智能体综合能源管理系统做出的动作;
[0024]步骤2.2、固定被害多智能体系统策略π
θ
,定义了攻击者的奖励函数为R
ad本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向多智能体强化学习能源系统的鲁棒对抗训练框架,其特征在于,包括:步骤1、构造一个对抗智能体以生成对抗攻击,并建模为对抗性部分可观察的随机博弈系统;步骤2、固定经过预训练的被害多智能体策略,训练一个最优的确定性对抗策略来产生有界扰动;步骤3、固定最优的对抗攻击策略,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性。2.根据权利要求1所述的面向多智能体强化学习能源系统的鲁棒对抗训练框架,其特征在于,步骤1包括:步骤1.1,将基于多智能体强化学习的综合能源管理系统表述为部分可观察的随机博弈问题,每个智能体控制一个建筑,通过优化所有智能体的策略以使得整个团队的累积奖励最大化:其中,N是智能体数量,S是环境状态,A
i
是第i个智能体的动作空间,是联合动作空间,定义为A=A1×…×
A
N
;P:S
×
A
×
S

Δ(S)是任意t时刻给定动作下从状态s
t
到下一个t+1时刻状态s
t+1
的状态转移概率;是第i个智能体从(s
t
,a
t
)到下一时刻状态s
t+1
的及时反馈奖励;γ是折扣因子;O
i
是第i个智能体的观测空间,联合观测空间是{O
i
}
i∈N
,定义为O=O1×…×
O
N
;Z:S
×
A

Δ(O)是任意t时刻联合观测o
t
∈O在任意动作a
t
下,状态s
t
的观测概率;在t时刻,每个智能体i根据观测通过策略选择动作然后,环境根据状态转移概率P移动到下一个状态,s
t+1
~P(
·
|s
t
,a
t
);每个智能体i获得奖励和新的局部观测步骤1.2、在所述综合能源管理系统中引入一个对手智能体,通过生成最强对抗攻击引起模型最差性能,将这个系统建模为对抗性部分可观察的随机博弈问题:<W,S,A
adv
,{A
i
}
i∈N
,P,{R
i
}
i∈w
,R
adv
,γ,{O
i
}
i∈N
,Z>其中N是受害智能体数量,S是环境状态,A
adv
和R
adv
分别是攻击者的行动空间和奖励函数;A
i
是第i个受害智能体的动作空间,是联合动作空间,定义为A=A1×…×
A
N
;P:S

【专利技术属性】
技术研发人员:陈永辉刘轩驿林彤王战李隆锋陈双照朱凌风翁洪康
申请(专利权)人:浙江浙能数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1