一种基于深度期望Q-学习的电网能量管理方法及系统技术方案

技术编号:27978461 阅读:20 留言:0更新日期:2021-04-06 14:13
本发明专利技术公开基于双‑深度期望Q‑学习网络算法的电网能量管理方法及系统,首先基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;将光伏出力的概率分布输入基于双‑深度期望Q‑学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略;系统依据光伏发电出力策略运行各光伏出力设备运用;本发明专利技术将微电网经济调度问题模拟为马尔可夫决策过程,将目标函数和约束条件映射成强化学习的奖惩函数,利用其学习和与环境交互的能力获得最优决策,借助贝叶斯神经网络对学习环境中光伏发电出力的不确定性建模在马尔科夫决策过程中适当考虑状态随机转移,显著提高算法的收敛速度。

【技术实现步骤摘要】
一种基于深度期望Q-学习的电网能量管理方法及系统
本专利技术涉及电网能量管理系统
,具体涉及一种基于深度期望Q-学习的电网能量管理方法及系统。
技术介绍
随着可再生能源发电技术的发展,光伏等分布式电源在电力系统中的渗透率不断提高,为电力系统安全和经济运行带来了问题甚至挑战。受气候等周围环境因素的影响,光伏等分布式电源出力的不确定性和时变性,对调度计划的制定带来了困难。如何对光伏出力的不确定性进行适当建模和高效求解是一个值得研究的重要问题。在不确定性建模方面,目前常用方法主要有随机模型、模糊模型、区间数模型和机会约束模型。随机模型的拟合效果受限于所选分布函数的种类;区间数模型通过引入区间数来描述不确定性集合,规避极端条件下的风险,但所求策略较为保守,牺牲了系统运行的经济性;机会约束模型通过将不确定性的调度模型转化成确定性优化问题,力图在最小化风险与最大化经济效益之间取得平衡。考虑到不确定性优化模型求解相当复杂,一般将非线性优化模型线性化后再求解,目前常用方法包括混合整数规划,动态规划,随机线性规划,改进微分进化算法,飞蛾扑火算法等。经典优化算法难以求得该类非线性优化模型的全局最优解,而启发式优化算法一般耗时很长。在此背景下,针对光伏发电高渗透率的微电网,需要对光伏发电出力进行更为精准的建模并寻求高效的求解算法。深度强化学习作为人工智能技术的一个迅速发展的分支,其通过与环境交互、反馈学习不断改进策略,可以自动适应不确定性因素的变化。与传统算法相比,深度强化学习算法不需要依赖明确的目标函数,代之以奖励函数对决策行为进行评价,能够根据不同的运行要求和优化目标给出相应的控制方案和优化策略,实现实时决策。
技术实现思路
为实现光伏出力的不确定性的适当建模和高效求解,本专利技术基于深度期望Q强化学习算法,提出一种电网能量管理方法及系统,实现微电网实时能量和经济调度。本专利技术通过下述技术方案实现:本方案提供一种基于双-深度期望Q-学习网络算法的电网能量管理方法,包括以下步骤:S1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;S2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略;S3.依据光伏发电出力策略运行各光伏出力设备。进一步优化方案为,基于双-深度期望Q-学习网络算法的电网能量管理模型建立过程为:T1.仅考虑储能系统作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;T2.将T1中电网能量管理模型建模为马尔可夫决策过程;T3.基于光伏出力的概率分布,考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;T4.设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。进一步优化方案为,S1中基于贝叶斯神经网络对预测点光伏出力不确定性建模具体过程为:S11.读取预测点决定性因素、持续性影响因素、突发性影响因素的信息并进行数据预处理;S12.将预处理后的预测点决定性因素数据、持续性影响因素数据输入贝叶斯神经网络的深度全连接层,将预处理后的突发性影响因素数据输入贝叶斯神经网络的概率层进行建模;S13.经过多次模型训练后得到预测点的光伏出力概率分布。进一步优化方案为,T1中以日运行成本最低的目标函数为:日运行成本为调度周期内购电成本和储能系统运行成本之和,表示为:式中:T为调度时段数;xt为t时段需要与主电网交换的电量,xt>0表示从主电网购电,反之向主电网卖电;cb,t/cg,t表示t时段从主电网买/和向主电网卖电的价格;τt为t时段储能系统的运行成本,|·|+为取正函数。进一步优化方案为,T1中微网运行约束包括:功率平衡约束条件、储能系统运行约束条件和调度周期内电池状态约束。进一步优化方案为,T2中马尔可夫决策过程具体建模过程包括:考虑系统变量的多样性和必要性构建状态空间;考虑储能系统的充放电和向电网买卖电量的动作以保证系统内部的功率平衡来构建动作空间;将目标函数映射为奖励决策函数;折扣率在计算时取固定值0.9;状态转移概率表现为下一状态的光伏出力的概率。进一步优化方案为,步骤T3具体方法为:在强化学习Q-学习算法的基础上引入经验回放机制,保存每次与环境交互得到的奖励与状态更新情况,当神经网络参数收敛后,获得近似的Q值;利用估计Q网络和目标Q网络解耦动作的选择与目标Q值计算;在双深度Q学习网络的基础上提出双-深度期望Q-学习网络算法,将贝叶斯神经网络和深度强化学习结合起来,通过将状态转移的随机过程用贝叶斯神经网络表示,利用随机状态中Q期望值来更新Q网络。进一步优化方案为,利用随机状态中Q期望值来更新Q网络具体过程为:首先,在估计Q网络中选择储能系统调度策略;然后,在目标Q网络中更新Q值;简化模型,将概率密度函数离散化。进一步优化方案为,T4中设定合理参数保证神经网络学习过程收敛时,需要考虑经验回放池、探索率和学习率。本专利技术还提供一种基于双-深度期望Q-学习网络算法的电网能量管理系统,包括:概率分布获取装置基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;第一建模装置仅考虑储能系统作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;第二建模装置电网能量管理模型建模为马尔可夫决策过程;求解装置考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;模型训练装置设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型;电网能量管理系统基于双-深度期望Q-学习网络算法的电网能量管理模型得到的光伏发电出力策略控制各光伏出力设备。本专利技术原理:一、基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;贝叶斯神经网络可根据较小的数据量得到较为稳定的预测模型,不会出现过拟合问题;同时,其概率层的神经元的权重与偏置服从一定的概率分布,具备描述不确定性变量的能力。基于贝叶斯神经网络的光伏出力预测,需要对多种影响因素进行分析,影响光伏出力的因素有多种类型,本步骤对其分类建模:(1)决定性因素光照辐射强度是影响光伏出力的决定性因素。光伏出力可用下式求取。PPV=φAη式中:φ为光照辐射强度;A为光伏阵列总面积;η为光电转换效率;A和η为光伏面板固定参数。(2)持续性影响因素持续性影响因素指可在较本文档来自技高网
...

【技术保护点】
1.一种基于双-深度期望Q-学习网络算法的电网能量管理方法,其特征在于,包括以下步骤:/nS1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;/nS2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略;/nS3.系统依据光伏发电出力策略运行各光伏出力设备。/n

【技术特征摘要】
1.一种基于双-深度期望Q-学习网络算法的电网能量管理方法,其特征在于,包括以下步骤:
S1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
S2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略;
S3.系统依据光伏发电出力策略运行各光伏出力设备。


2.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,基于双-深度期望Q-学习网络算法的电网能量管理模型建立过程为:
T1.仅考虑储能系统作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;
T2.将T1中电网能量管理模型建模为马尔可夫决策过程;
T3.基于光伏出力的概率分布,考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
T4.设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。


3.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,S1中基于贝叶斯神经网络对预测点光伏出力不确定性建模具体过程为:
S11.读取预测点决定性因素、持续性影响因素、突发性影响因素的信息并进行数据预处理;
S12.将预处理后的预测点决定性因素数据、持续性影响因素数据输入贝叶斯神经网络的深度全连接层,将预处理后的突发性影响因素数据输入贝叶斯神经网络的概率层进行建模;
S13.经过多次模型训练后得到预测点的光伏出力概率分布。


4.根据权利要求2所述的所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,T1中以日运行成本最低的目标函数为:日运行成本为调度周期内购电成本和储能系统运行成本之和,表示为:



式中:T为调度时段数;xt为t时段需要与主电网交换的电量,xt>0表示从主电网购电,反之向主电网卖电;cb,t/cg,t表示t时段从主电网买/和向主电网卖电的价格;τt为t时段储能系统的运行成本,|·|+为取正函数。


5.根据权利要求2所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,T1中微网运行约束包括:功率平衡约束条件、储能系统运行约束条件和调度周期内电池状态约束。

...

【专利技术属性】
技术研发人员:陈振韩晓言丁理杰魏巍
申请(专利权)人:国网四川省电力公司电力科学研究院
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1