一种基于深度期望Q-学习的电网能量管理方法及系统技术方案

技术编号：27978461 阅读：20 留言：0更新日期：2021-04-06 14:13

本发明专利技术公开基于双‑深度期望Q‑学习网络算法的电网能量管理方法及系统，首先基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布；将光伏出力的概率分布输入基于双‑深度期望Q‑学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略；系统依据光伏发电出力策略运行各光伏出力设备运用；本发明专利技术将微电网经济调度问题模拟为马尔可夫决策过程，将目标函数和约束条件映射成强化学习的奖惩函数，利用其学习和与环境交互的能力获得最优决策，借助贝叶斯神经网络对学习环境中光伏发电出力的不确定性建模在马尔科夫决策过程中适当考虑状态随机转移，显著提高算法的收敛速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度期望Q-学习的电网能量管理方法及系统
本专利技术涉及电网能量管理系统
，具体涉及一种基于深度期望Q-学习的电网能量管理方法及系统。
技术介绍
随着可再生能源发电技术的发展，光伏等分布式电源在电力系统中的渗透率不断提高，为电力系统安全和经济运行带来了问题甚至挑战。受气候等周围环境因素的影响，光伏等分布式电源出力的不确定性和时变性，对调度计划的制定带来了困难。如何对光伏出力的不确定性进行适当建模和高效求解是一个值得研究的重要问题。在不确定性建模方面，目前常用方法主要有随机模型、模糊模型、区间数模型和机会约束模型。随机模型的拟合效果受限于所选分布函数的种类；区间数模型通过引入区间数来描述不确定性集合，规避极端条件下的风险，但所求策略较为保守，牺牲了系统运行的经济性；机会约束模型通过将不确定性的调度模型转化成确定性优化问题，力图在最小化风险与最大化经济效益之间取得平衡。考虑到不确定性优化模型求解相当复杂，一般将非线性优化模型线性化后再求解，目前常用方法包括混合整数规划，动态规划，随机线性规划，改进微分进化算法，飞蛾扑火算法等。经典优化算法难以求得该类非线性优化模型的全局最优解，而启发式优化算法一般耗时很长。在此背景下，针对光伏发电高渗透率的微电网，需要对光伏发电出力进行更为精准的建模并寻求高效的求解算法。深度强化学习作为人工智能技术的一个迅速发展的分支，其通过与环境交互、反馈学习不断改进策略,可以自动适应不确定性因素的变化。与传统算法相比，深度强化学习算法不需要依赖明确的目标函数，代...

【技术保护点】
1.一种基于双-深度期望Q-学习网络算法的电网能量管理方法，其特征在于，包括以下步骤：/nS1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布；/nS2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略；/nS3.系统依据光伏发电出力策略运行各光伏出力设备。/n

【技术特征摘要】
1.一种基于双-深度期望Q-学习网络算法的电网能量管理方法，其特征在于，包括以下步骤：
S1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布；
S2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略；
S3.系统依据光伏发电出力策略运行各光伏出力设备。

2.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法，其特征在于，基于双-深度期望Q-学习网络算法的电网能量管理模型建立过程为：
T1.仅考虑储能系统作为可控资源，以日运行成本最低为目标函数并满足微网运行约束，建立电网能量管理模型；
T2.将T1中电网能量管理模型建模为马尔可夫决策过程；
T3.基于光伏出力的概率分布，考虑状态转移的随机过程，在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法，求解马尔可夫决策过程；
T4.设定合理参数保证神经网络学习过程收敛，训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。

3.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法，其特征在于，S1中基于贝叶斯神经网络对预测点光伏出力不确定性建模具体过程为：
S11.读取预测点决定性因素、持续性影响因素、突发性影响因素的信息并进行数据预处理；
S12.将预处理后的预测点决定性因素数据、持续性影响因素数据输入贝叶斯神经网络的深度全连接层，将预处理后的突发性影响因素数据输入贝叶斯神经网络的概率层进行建模；
S13.经过多次模型训练后得到预测点的光伏出力概率分布。

4.根据权利要求2所述的所述的一种基于深度期望Q-学习的电网能量管理方法，其特征在于，T1中以日运行成本最低的目标函数为：日运行成本为调度周期内购电成本和储能系统运行成本之和，表示为：

式中：T为调度时段数；xt为t时段需要与主电网交换的电量，xt＞0表示从主电网购电，反之向主电网卖电；cb,t/cg,t表示t时段从主电网买/和向主电网卖电的价格；τt为t时段储能系统的运行成本，|·|+为取正函数。

5.根据权利要求2所述的一种基于深度期望Q-学习的电网能量管理方法，其特征在于，T1中微网运行约束包括：功率平衡约束条件、储能系统运行约束条件和调度周期内电池状态约束。

...

【专利技术属性】
技术研发人员：陈振，韩晓言，丁理杰，魏巍，
申请(专利权)人：国网四川省电力公司电力科学研究院，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人