当前位置: 首页 > 专利查询>浙江大学专利>正文

基于分布式深度强化学习的微网隐私保护与能量调度方法技术

技术编号:37329383 阅读:30 留言:0更新日期:2023-04-21 23:07
本发明专利技术公开了一种基于分布式深度强化学习的微网隐私保护与能量调度方法。首先利用动作网络与本地环境进行交互,获取相应的动作策略,生成对应的噪声及独立发电单元功率,再根据环境参数与所选动作判断是否满足约束条件,计算奖励值。随后动作神经网络与价值神经网络提取历史数据进行学习,最后根据所学模型,价值网络对动作网络选择的动作进行反馈,引导动作网络追寻更高的奖励值。对于此类实时性要求高,计算量大,隐私保护要求高的应用场景,本发明专利技术所提出的方法在训练完成后可以快速给出优化策略,合理分配各单元发电出力,生成噪声保护用户数据,最终有效地解决了微电网中的能量优化调度及隐私保护问题。优化调度及隐私保护问题。优化调度及隐私保护问题。

【技术实现步骤摘要】
基于分布式深度强化学习的微网隐私保护与能量调度方法


[0001]本专利技术属于分布式框架、强化学习、微电网能量调度及隐私保护的交叉领域的一种微电网能量实时调度方法,具体涉及了一种基于分布式深度强化学习的微电网隐私保护与能量实时调度方法。

技术介绍

[0002]新能源技术的发展与应用,使太阳能、风能、水能等清洁能源逐渐成为主导,随着新能源的不断接入,电网规模扩大,电网调度管理难度不断增加。微电网(microgrid,MG),作为新型电力系统的典型代表可以有效管理分布式电源、提高供电可靠性。微电网能量管理面临的一个主要威胁是负载数据与模型参数在交互中带来的数据泄露问题。现有的研究主要通过对数据进行加密保护来提高数据通讯的安全性,如基于数论的RSA加密算法、基于因数分解的ElGamal算法以及Paillier同态加密算法等。然而这些算法消耗大量时间和资源,极大提高了计算量,并且存在私钥泄露的风险,因此如何权衡隐私保护效能和能量管理优化至关重要。
[0003]针对此类问题,通常采用将微电网的隐私保护和能量管理统一建模为一个数学优化问题,并通过优化算法来寻找最优权衡策略。如采用基于对偶分解的算法和次优算法来求解具有隐私保护要求的微电网能量管理问题或通过对相邻控制器间的通讯进行随机加权的方法来提高数据通讯的安全性等方法。然而微电网系统中负载存在实时波动性,传统的优化方法难以满足其实时能量管理需求。强化学习算法在模型训练完成后可以对变化的环境做出实时反应,极大的提高了系统反应速度,因此已被广泛研究其在微电网系统上的应用。然而传统的强化学习方法通常只适用于规模有限的微电网系统。随着分布式电源、储能系统以及负载不断接入,各状态、动作参数不断增加,极大的提高了微电网系统能量管理的计算难度。

技术实现思路

[0004]为了解决
技术介绍
中存在的问题,本专利技术结合中心化训练和去中心化执行的思想,本专利技术提出了一种基于分布式深度强化学习的微电网隐私保护与能量实时调度方法来解决上述安全性和实时性要求高以及参数空间大的问题。首先,各负载单元在本地统计实时负载需求,并采用差分隐私算法对每个负载数据加入高斯噪声,破坏个体数据有效性。其次,将每个分布式独立发电单元以及主电网视为独立智能体,建立多智能体深度强化学习模型,并将各智能体的能量管理以及隐私保护效能统一设计为多目标优化问题。其目标是:降低独立发电单元运行成本、优化微电网系统与主电网的电力交易、降低独立发电单元与储能单元的使用寿命损耗以及提高负载数据通讯的安全性。本专利技术结合了强化学习的实时性强、泛化性能好等优点,并加入了分布式框架,降低了单智能体的计算量,提高了学习效率及求解精度。同时考虑到微电网中负载数据上传过程中容易出现的隐私泄露问题,加入了差分隐私算法与强化学习进行结合,有效保护了数据通讯安全。
[0005]与传统的强化学习方法相比,本专利技术所提的分布式深度强化学习的微电网隐私保护与能量在线优化方法在解决微电网能量管理和隐私保护问题上具有以下优势:1、采用深度确定性策略梯度模型,提高了微电网系统的能量实时管理能力;2、建立多个分布式学习模型,有效降低了计算复杂度;3、采用差分隐私的方法进行数据保护,有效避免了私钥泄露带来的危险,降低了数据保护的计算量。
[0006]本专利技术采用的技术方案如下:
[0007]步骤1)根据微电网系统构建微电网多智能体强化学习模型,同时根据主电网建立对应的智能体进行本地调度管理;
[0008]步骤2)建立微电网隐私保护与能量调度模型;
[0009]步骤3)微电网多智能体强化学习模型输出当前时刻的动作集合,当前时刻的动作集合包括各可控发电单元输出的当前时刻发电机功率变化值以及为发电功率数据加噪所需的隐私保护预算参数;根据微电网多智能体强化学习模型的当前时刻状态值集合计算出对应敏感度,各个敏感度再结合对应隐私保护预算参数通过差分隐私算法生成对应拉普拉斯噪声,将拉普拉斯噪声加到对应发电功率数据中后获得观测数据集;将观测数据集传输给主电网,主电网通过观测数据集获取节点差额电量,主电网智能体根据节点差额电量输出对应的动作,动作为主电网与微电网节点的交互电量,根据主电网与微电网节点的交互电量、发电机功率变化值更新出微电网多智能体强化学习模型的下一时刻状态值集合;
[0010]步骤4)根据微电网多智能体强化学习模型的动作集合以及当前时刻和下一时刻的状态值集合,利用微电网隐私保护与能量调度模型计算微电网多智能体强化学习模型的总奖励值,若此时对应的回合数达到预设数据采集回合,则开始从经验池中提取历史数据以更新强化学习模型;若未达到则不从经验池中提取历史数据更新强化学习模型,直接进行下一时刻;
[0011]步骤5)重复步骤3)

4),直到当前回合结束,若回合结束则重置时刻、发电机发电功率、储能单元荷电状态、主电网交互功率数据,接着采集下一回合的负载需求、实时电价数据;
[0012]步骤6)继续重复步骤5),在回合迭代中不断收集、读取历史数据,从而更新强化学习模型,最终不断输出调度策略,实现微电网能量调度及隐私保护最优化。
[0013]所述微电网多智能体强化学习模型包括m个智能体,分别根据m个独立发电单元构建获得,m个智能体的经验池共享,微电网多智能体强化学习模型通过以下公式进行设置:
[0014]A(t)=[a(1,t),a(2,t),...,a(n,t)]T
[0015]S(t)=[s(1,t),s(2,t),...,s(n,t)]T
[0016]Ctr(t)=[c(1,t),c(2,t),...,c(n,t)]T
[0017]R(t)=[r(1,t),r(2,t),...,r(n,t)]T
[0018][0019]a(i,t)=[ΔPk(i,t),ε]T
[0020]其中,A(t)表示时刻t各智能体输出的动作集合,S(t)表示时刻t各智能体的状态值集合,Ctr(t)表示时刻t各智能体的动作策略集合,表示从状态到具体动作的映射关系,R(t)表示时刻t各智能体的奖励值集合,即总奖励值,a(i,t)表示时刻t第i个智能体输出的
动作,s(i,t)表示时刻t第i个智能体的本地状态值,c(i,t)表示时刻t第i个智能体的动作策略,r(i,t)表示时刻t第i个智能体的本地奖励值,Pk(i,t)表示时刻t第i个独立发电单元的发电功率,d(j,t)表示时刻t第j个负载的负载需求,SoC(t)表示时刻t储能单元的荷电状态,Pess(t)表示时刻t储能单元的充放电功率,T表示转置,ε为隐私保护预算,ΔPk(i,t)为时刻t第i个独立发电单元功率变化量,n表示独立发电单元数量,m表示负载数量。
[0021]所述微电网隐私保护与能量调度模型包括微电网隐私保护与能量优化目标函数和约束条件集合;
[0022]所述微电网隐私保护与能量优化目标函数包括微电网隐私保护代价函数和微电网能量调度问题的代价函数,具体公式如下:
[0023][0024]其中,Pk(i,t)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式深度强化学习的微网隐私保护与能量调度方法,其特征在于,包括如下步骤:步骤1)根据微电网系统构建微电网多智能体强化学习模型,同时根据主电网建立对应的智能体进行本地调度管理;步骤2)建立微电网隐私保护与能量调度模型;步骤3)微电网多智能体强化学习模型输出当前时刻的动作集合,当前时刻的动作集合包括各可控发电单元输出的当前时刻发电机功率变化值以及为发电功率数据加噪所需的隐私保护预算参数;根据微电网多智能体强化学习模型的当前时刻状态值集合计算出对应敏感度,各个敏感度再结合对应隐私保护预算参数通过差分隐私算法生成对应拉普拉斯噪声,将拉普拉斯噪声加到对应发电功率数据中后获得观测数据集;将观测数据集传输给主电网,主电网通过观测数据集获取节点差额电量,主电网智能体根据节点差额电量输出对应的动作,动作为主电网与微电网节点的交互电量,根据主电网与微电网节点的交互电量、发电机功率变化值更新出微电网多智能体强化学习模型的下一时刻状态值集合;步骤4)根据微电网多智能体强化学习模型的动作集合以及当前时刻和下一时刻的状态值集合,利用微电网隐私保护与能量调度模型计算微电网多智能体强化学习模型的总奖励值,若此时对应的回合数达到预设数据采集回合,则开始从经验池中提取历史数据以更新强化学习模型;若未达到则不从经验池中提取历史数据更新强化学习模型,直接进行下一时刻;步骤5)重复步骤3)

4),直到当前回合结束,若回合结束则重置时刻、发电机发电功率、储能单元荷电状态、主电网交互功率数据,接着采集下一回合的负载需求、实时电价数据;步骤6)继续重复步骤5),在回合迭代中不断收集、读取历史数据,从而更新强化学习模型,最终不断输出调度策略,实现微电网能量调度及隐私保护最优化。2.根据权利要求1所述的一种基于分布式深度强化学习的微网隐私保护与能量调度方法,其特征在于,所述微电网多智能体强化学习模型包括n个智能体,分别根据n个独立发电单元构建获得,n个智能体的经验池共享,微电网多智能体强化学习模型通过以下公式进行设置:A(t)=[a(1,t),a(2,t),...,a(n,t)]
T
S(t)=[s(1,t),s(2,t),

,s(n,t)]
T
Ctr(t)=[c(1,t),c(2,t),...,c(n,t)]
T
R(t)=[r(1,t),r(2,t),...,r(n,t)]
T
a(i,t)=[ΔPk(i,t),ε]
T
其中,A(t)表示时刻t各智能体输出的动作集合,S(t)表示时刻t各智能体的状态值集合,Ctr(t)表示时刻t各智能体的动作策略集合,表示从状态到具体动作的映射关系,R(t)表示时刻t各智能体的奖励值集合,即总奖励值,a(i,t)表示时刻t第i个智能体输出的动作,s(i,t)表示时刻t第i个智能体的本地状态值,c(i,t)表示时刻t第i个智能体的动作策略,r(i,t)表示时刻t第i个智能体的本地奖励值,Pk(i,t)表示时刻t第i个独立发电单元的发电功率,d(j,t)表示时刻t第j个负载的负载需求,SoC(t)表示时刻t储能单元的荷电状
态,Pess(t)表示时刻t储能单元的充放电功率,T表示转置,ε为隐私保护预算,ΔPk(i,t)为时刻t第i个独立发电单元功率变化量,n表示独立发电单元数量,m表示负载数量。3.根据权利要求2所述的一种基于分布式深度强化学习的微网隐私保护与能量调度方法,其特征在于,所述微电网隐私保护与能量调度模型包括微电网隐私保护与能量优化目标函数和约束条件集合;所述微电网隐私保护与能量优化目标函数包括微电网隐私保护代价函数和微电网能量调度问题的代价函数,具体公式如下:其中,Pk(i,t)表示时刻t第i个独立发电单元的发电功率,P
ess
(t)表示t时刻储能单元充放电功率,Pmain(t)表示主电网与微电网系统的交互功率,L(t)表示微电网隐私保护代价函数值,F(t)表示微电网能量调度问题的代价函数值;R表示单回合内包括的时刻总数;所述约束条件集合包括功率平衡约束、爬坡约束、功率上下限约束和储能单元荷电状态约束;在t时刻,微电网的功率平衡约束为:在t时刻,微电网的爬坡约束为:CL
min,i
≤Pk(i,t+1)

Pk(i,t)≤CL
max,i
CL
ess,min
≤Pess(t+1)

Pess(t)≤CL
ess,max
在t时刻,功率上下限约束为:P
min,i
≤Pk(i,t)≤P
max,i
Pmain
min
≤Pmain(t)≤Pmain
max
在t时刻,微电网的储能单元荷电状态约束表示为:SoC
min
≤SoC(t)≤SoC
max
其中,d(j,t)表示时刻t第j个负载的负载需求,Pess(t)表示时刻t储能单元的充放电功率,Pk(i,t+1)表示时刻t+1第i个独立发电单元的发电功率,Pess(t+1)表示时刻t+1储能单元的充放电功率,CL
max,i
,CL
min,i
分别表示单位时间内第i个独立发电单元的功率变化上下限,CL
ess,max
,CL
ess,min
分别代表单位时间内储能单元的充放电功率变化上下限;P
max,i
,P
min,i
分别为第i个独立发电单元的发电功率上下限,Pmain
max
,Pmain
min
分别为主电网与微电网系统的交互功率上下限,SoC
max
,SoC
min
分别为储能单元的荷电量上下限。4.根据权利要求3所述的一种基于分布式深度强化学习的微网隐私保护与能量调度方法,其特征在于,所述微电网隐私保护代价函数表示为:L(t)=δ1L1(t)+δ2L2(t)(t)
其中,L1(t)表示时刻t个体数据差异优化函数值,L2(t)表示时刻t聚合查询差异优化函数值,Lap
j
...

【专利技术属性】
技术研发人员:王雷郭方洪何通王文海
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1