【技术实现步骤摘要】
一种面向多智能体强化学习能源系统的鲁棒对抗训练框架
[0001]本专利技术涉及电力系统安全防御领域,更确切地说,它涉及一种面向多智能体强化学习能源系统的鲁棒对抗训练框架。
技术介绍
[0002]随着社会经济的发展和能源需求的增长,电力系统正在经历从化石燃料到清洁能源的规划和运行的根本性革命。在能源互联网快速发展的背景下,电、气、热、冷等多种能源耦合协调的综合能源系统可实现多能互补,促进可再生能源消纳,提升能源利用效率,缓解供需不平衡。相较于传统电力系统,综合能源系统的能量流动更加复杂,其运行调控涉及更复杂的负荷需求、供应装置和运行方式。能源需求、供应和存储相互高度耦合的新特征,将引起系统运行方式和动态特性复杂性提高、源荷双侧不确定性加剧、仿真系统数学模型变量与维数增多、安全稳定裕度减小等问题,从而致使基于数学模型机理的传统综合能源管理方法难以满足在线评估与实时控制的需求。为此,以多智能体强化学习为核心的数据驱动综合能源管理方法应运而生。随着信息和通信技术的融合,基于多智能体强化学习的综合能源管理系统其安全性与脆弱性问题更加不容小觑。综合能源管理系统的通信网络,包括监控和数据采集网络和智能电表等设备,都很容易受到恶意网络行为者的攻击。
技术实现思路
[0003]本专利技术的目的是克服现有技术中的不足,提供了一种面向多智能体强化学习能源系统的鲁棒对抗训练框架。本专利技术通过鲁棒对抗训练增强基于多智能体强化学习的综合能源管理系统对对抗攻击的抵御能力。首先构建了一个对手智能体,其目标是通过制定对抗攻击、造成控 ...
【技术保护点】
【技术特征摘要】
1.一种面向多智能体强化学习能源系统的鲁棒对抗训练框架,其特征在于,包括:步骤1、构造一个对抗智能体以生成对抗攻击,并建模为对抗性部分可观察的随机博弈系统;步骤2、固定经过预训练的被害多智能体策略,训练一个最优的确定性对抗策略来产生有界扰动;步骤3、固定最优的对抗攻击策略,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性。2.根据权利要求1所述的面向多智能体强化学习能源系统的鲁棒对抗训练框架,其特征在于,步骤1包括:步骤1.1,将基于多智能体强化学习的综合能源管理系统表述为部分可观察的随机博弈问题,每个智能体控制一个建筑,通过优化所有智能体的策略以使得整个团队的累积奖励最大化:其中,N是智能体数量,S是环境状态,A
i
是第i个智能体的动作空间,是联合动作空间,定义为A=A1×…×
A
N
;P:S
×
A
×
S
→
Δ(S)是任意t时刻给定动作下从状态s
t
到下一个t+1时刻状态s
t+1
的状态转移概率;是第i个智能体从(s
t
,a
t
)到下一时刻状态s
t+1
的及时反馈奖励;γ是折扣因子;O
i
是第i个智能体的观测空间,联合观测空间是{O
i
}
i∈N
,定义为O=O1×…×
O
N
;Z:S
×
A
→
Δ(O)是任意t时刻联合观测o
t
∈O在任意动作a
t
下,状态s
t
的观测概率;在t时刻,每个智能体i根据观测通过策略选择动作然后,环境根据状态转移概率P移动到下一个状态,s
t+1
~P(
·
|s
t
,a
t
);每个智能体i获得奖励和新的局部观测步骤1.2、在所述综合能源管理系统中引入一个对手智能体,通过生成最强对抗攻击引起模型最差性能,将这个系统建模为对抗性部分可观察的随机博弈问题:<W,S,A
adv
,{A
i
}
i∈N
,P,{R
i
}
i∈w
,R
adv
,γ,{O
i
}
i∈N
,Z>其中N是受害智能体数量,S是环境状态,A
adv
和R
adv
分别是攻击者的行动空间和奖励函数;A
i
是第i个受害智能体的动作空间,是联合动作空间,定义为A=A1×…×
A
N
;P:S
【专利技术属性】
技术研发人员:陈永辉,刘轩驿,林彤,王战,李隆锋,陈双照,朱凌风,翁洪康,
申请(专利权)人:浙江浙能数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。