【技术实现步骤摘要】
基于强化学习的综合能源系统能量优化调度方法及系统
[0001]本申请涉及综合能源系统
,尤其涉及一种基于强化学习的综合能源系统能量优化调度方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本申请相关的
技术介绍
信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]综合能源系统能够因地制宜,为用户提供电、热、冷等多种能源,是提高能源利用率,减少二氧化碳排放,提高可再生能源占比,实现“双碳”目标的有效解决方案之一。优化调度方法是综合能源系统安全、高效、经济运行的保障。传统的优化调度方法主要包括系统设备模型的建立;系统优化模型的建立以及基于预测数据对优化模型求解三部分,该方法针对确定性系统具有求解效率高的特点。
[0004]但是,由于可再生能源和用户负荷具有较强的随机性,预测数据与实际运行可能存在偏差,导致优化结果不准确,现有的启发式方法难以保证综合能源系统的实时最优运行,此外,启发式算法在求解时容易陷入局部最优解,难以找到全局最优解。深度强化学习擅于解决连续序列的决策问题,在综合能源系统优化中,通过对历史数据的大量训练能够实现系统的实时优化调度,降低源荷随机对系统优化调度的影响,但强化学习本身具有学习效率低,收敛性受超参数影响大等问题,需要经过长时间大量的训练来获得优化调度方案。因此,如何在综合能源系统实时运行时,获取更为准确的优化调度结果仍是目前需要解决的问题。
技术实现思路
[0005]为了解决上述问题,本申请提供一种基于强化学习的综合能源系统能量优 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的综合能源系统能量优化调度方法,其特征在于,所述能量优化调度方法包括:采集综合能源系统内各设备的运行数据;根据所述运行数据、各运行设备的能量转换模型及对应的约束条件,以系统运行成本和碳排放量最小为优化目标,利用启发式算法求解综合能源系统的发电机组出力的计划值;建立有限空间的马尔可夫决策过程,通过强化学习模型确定发电机组出力的优化值,并根据发电机组出力的优化值控制设备运行;其中,将所述运行数据和发电机组出力的计划值分别作为神经网络的输入和输出,对神经网络进行训练,将训练好的神经网络作为强化学习模型的策略网络。2.如权利要求1所述的能量优化调度方法,其特征在于,所述启发式算法包括但不限于遗传算法、蚁群算法、粒子群优化算法和模拟退火算法。3.如权利要求1所述的能量优化调度方法,其特征在于,采集综合能源系统内各设备的运行数据包括:采集特定采样频率下的光伏电站发电数据、风电站发电数据、购电价格、售电价格、用户电负荷数据和用户冷负荷数据。4.如权利要求3所述的能量优化调度方法,其特征在于,马尔可夫决策过程包括马尔可夫决策过程的状态、动作和奖励函数;定义状态s
t
{P
pv
(t),P
wt
(t),λ
t
,μ
t
,P
e
(t),P
c
(t)},动作a
t
{P
pgu,e
(t)},奖励r
t
{
‑
(f
oc
(t)+f
es
(t))};其中,t为设备运行时段,s
t
为综合能源系统在设备运行时段t时的状态,P
pv
(t)为设备运行时段t时的光伏电站发电数据,P
wt
(t)为设备运行时段t时的风电站发电数据,λ
t
为设备运行时段t时的购电价格,μ
t
为设备运行时段t时的售电价格,P
e
(t)为设备运行时段t时的用户电负荷数据,P
c
(t)为设备运行时段t时的用户冷负荷数据,a
t
为综合能源系统在设备运行时段t时的动作,P
pgu,e
(t)为设备运行时段t时的发电机出力,r
t
为综合能源系统在设备运行时段t时的奖励,f
oc
(t)为综合能源系统在设备运行时段t时的系统运行成本,f
es
(t)为综合能源系统在设备运行时段t时的系统运行碳排放。...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。