当前位置: 首页 > 专利查询>山东大学专利>正文

基于强化学习的综合能源系统能量优化调度方法及系统技术方案

技术编号:35211142 阅读:29 留言:0更新日期:2022-10-15 10:24
本申请提供一种基于强化学习的综合能源系统能量优化调度方法及系统,涉及综合能源系统技术领域,该方法包括:采集综合能源系统内各设备的运行数据;根据运行数据、各运行设备的能量转换模型及对应的约束条件,以系统运行成本和碳排放量最小为优化目标,利用启发式算法求解综合能源系统的发电机组出力的计划值;建立有限空间的马尔可夫决策过程,通过强化学习模型确定发电机组出力的优化值,并根据发电机组出力的优化值控制设备运行;其中,将运行数据和发电机组出力的计划值分别作为神经网络的输入和输出,对神经网络进行训练,将训练好的神经网络作为强化学习模型的策略网络,通过该方式,可以实现综合能源系统的实时优化运行。行。行。

【技术实现步骤摘要】
基于强化学习的综合能源系统能量优化调度方法及系统


[0001]本申请涉及综合能源系统
,尤其涉及一种基于强化学习的综合能源系统能量优化调度方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本申请相关的
技术介绍
信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]综合能源系统能够因地制宜,为用户提供电、热、冷等多种能源,是提高能源利用率,减少二氧化碳排放,提高可再生能源占比,实现“双碳”目标的有效解决方案之一。优化调度方法是综合能源系统安全、高效、经济运行的保障。传统的优化调度方法主要包括系统设备模型的建立;系统优化模型的建立以及基于预测数据对优化模型求解三部分,该方法针对确定性系统具有求解效率高的特点。
[0004]但是,由于可再生能源和用户负荷具有较强的随机性,预测数据与实际运行可能存在偏差,导致优化结果不准确,现有的启发式方法难以保证综合能源系统的实时最优运行,此外,启发式算法在求解时容易陷入局部最优解,难以找到全局最优解。深度强化学习擅于解决连续序列的决策问题,在综合能源系统优化中,通过对历史数据的大量训练能够实现系统的实时优化调度,降低源荷随机对系统优化调度的影响,但强化学习本身具有学习效率低,收敛性受超参数影响大等问题,需要经过长时间大量的训练来获得优化调度方案。因此,如何在综合能源系统实时运行时,获取更为准确的优化调度结果仍是目前需要解决的问题。

技术实现思路

[0005]为了解决上述问题,本申请提供一种基于强化学习的综合能源系统能量优化调度方法及系统,通过启发式算法求解综合能源系统的发电机组出力的计划值,并根据运行数据和计划值训练神经网络,训练好的神经网络作为强化学习模型的策略网络,经过有限次迭代得到发电机组出力的优化值,以实现综合能源系统的实时优化运行。
[0006]为了实现上述目的,本申请主要包括以下几个方面:
[0007]第一方面,本申请实施例提供一种基于强化学习的综合能源系统能量优化调度方法,所述能量优化调度方法包括:
[0008]采集综合能源系统内各设备的运行数据;
[0009]根据所述运行数据、各运行设备的能量转换模型及对应的约束条件,以系统运行成本和碳排放量最小为优化目标,利用启发式算法求解综合能源系统的发电机组出力的计划值;
[0010]建立有限空间的马尔可夫决策过程,通过强化学习模型确定发电机组出力的优化值,并根据发电机组出力的优化值控制设备运行;其中,将所述运行数据和发电机组出力的计划值分别作为神经网络的输入和输出,对神经网络进行训练,将训练好的神经网络作为
强化学习模型的策略网络。
[0011]在一种可能的实施方式中,所述启发式算法包括但不限于遗传算法、蚁群算法、粒子群优化算法和模拟退火算法。
[0012]在一种可能的实施方式中,采集综合能源系统内各设备的运行数据包括:采集特定采样频率下的光伏电站发电数据、风电站发电数据、购电价格、售电价格、用户电负荷数据和用户冷负荷数据。
[0013]在一种可能的实施方式中,马尔可夫决策过程包括马尔可夫决策过程的状态、动作和奖励函数;定义状态s
t
{P
pv
(t),P
wt
(t),λ
t

t
,P
e
(t),P
c
(t)},动作a
t
{P
pgu,e
(t)},奖励r
t
{

(f
oc
(t)+f
es
(t))};
[0014]其中,t为设备运行时段,s
t
为综合能源系统在设备运行时段t时的状态,P
pv
(t)为设备运行时段t时的光伏电站发电数据,P
wt
(t)为设备运行时段t时的风电站发电数据,λ
t
为设备运行时段t时的购电价格,μ
t
为设备运行时段t时的售电价格,P
e
(t)为设备运行时段t时的用户电负荷数据,P
c
(t)为设备运行时段t时的用户冷负荷数据,a
t
为综合能源系统在设备运行时段t时的动作,P
pgu,e
(t)为设备运行时段t时的发电机出力,r
t
为综合能源系统在设备运行时段t时的奖励,f
oc
(t)为综合能源系统在设备运行时段t时的系统运行成本,f
es
(t)为综合能源系统在设备运行时段t时的系统运行碳排放。
[0015]在一种可能的实施方式中,所述强化学习模型的训练过程包括:
[0016]建立综合能源系统虚拟环境,环境通过强化学习智能体输出动作a
t
,反馈奖励r
t
及下一时刻的状态s
t+1

[0017]加载训练好的策略网络和价值网络,动作网络用于输入当前状态s
t
输出动作a
t
,价值网络用于输入状态s
t
,a
t
,输出动作价值q
t

[0018]初始化上述策略网络和价值网络的目标网络;
[0019]初始化t=1,获取当前状态s
t

[0020]如果t小于预设周期T,根据当前状态s
t
通过策略网络选取动作a
t
,并适当添加动作噪声;
[0021]根据输出的动作a
t
,通过虚拟环境反馈得到下一时刻状态s
t+1
和奖励r
t
,更新目标网络,直到t大于预设周期T,更新当前状态。
[0022]在一种可能的实施方式中,在训练强化学习模型过程中每个周期结束时构建经验信息{s
t
,a
t
,r
t
,s
t+1
},并存入经验池。
[0023]在一种可能的实施方式中,判断经验池是否存满,若经验池存满,则通过梯度下降法更新价值网络参数,通过梯度上升算法延时更新动作网络。
[0024]第二方面,本申请实施例提供一种基于强化学习的综合能源系统能量优化调度系统,包括:
[0025]采集模块,用于采集综合能源系统内各设备的运行数据;
[0026]求解模块,用于根据所述运行数据、各运行设备的能量转换模型及对应的约束条件,以系统运行成本和碳排放量最小为优化目标,利用启发式算法求解综合能源系统的发电机组出力的计划值;
[0027]控制模块,用于建立有限空间的马尔可夫决策过程,通过强化学习模型确定发电机组出力的优化值,并根据发电机组出力的优化值控制设备运行;其中,将所述运行数据和
发电机组出力的计划值分别作为神经网络的输入和输出,对神经网络进行训练,将训练好的神经网络作为强本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的综合能源系统能量优化调度方法,其特征在于,所述能量优化调度方法包括:采集综合能源系统内各设备的运行数据;根据所述运行数据、各运行设备的能量转换模型及对应的约束条件,以系统运行成本和碳排放量最小为优化目标,利用启发式算法求解综合能源系统的发电机组出力的计划值;建立有限空间的马尔可夫决策过程,通过强化学习模型确定发电机组出力的优化值,并根据发电机组出力的优化值控制设备运行;其中,将所述运行数据和发电机组出力的计划值分别作为神经网络的输入和输出,对神经网络进行训练,将训练好的神经网络作为强化学习模型的策略网络。2.如权利要求1所述的能量优化调度方法,其特征在于,所述启发式算法包括但不限于遗传算法、蚁群算法、粒子群优化算法和模拟退火算法。3.如权利要求1所述的能量优化调度方法,其特征在于,采集综合能源系统内各设备的运行数据包括:采集特定采样频率下的光伏电站发电数据、风电站发电数据、购电价格、售电价格、用户电负荷数据和用户冷负荷数据。4.如权利要求3所述的能量优化调度方法,其特征在于,马尔可夫决策过程包括马尔可夫决策过程的状态、动作和奖励函数;定义状态s
t
{P
pv
(t),P
wt
(t),λ
t

t
,P
e
(t),P
c
(t)},动作a
t
{P
pgu,e
(t)},奖励r
t
{

(f
oc
(t)+f
es
(t))};其中,t为设备运行时段,s
t
为综合能源系统在设备运行时段t时的状态,P
pv
(t)为设备运行时段t时的光伏电站发电数据,P
wt
(t)为设备运行时段t时的风电站发电数据,λ
t
为设备运行时段t时的购电价格,μ
t
为设备运行时段t时的售电价格,P
e
(t)为设备运行时段t时的用户电负荷数据,P
c
(t)为设备运行时段t时的用户冷负荷数据,a
t
为综合能源系统在设备运行时段t时的动作,P
pgu,e
(t)为设备运行时段t时的发电机出力,r
t
为综合能源系统在设备运行时段t时的奖励,f
oc
(t)为综合能源系统在设备运行时段t时的系统运行成本,f
es
(t)为综合能源系统在设备运行时段t时的系统运行碳排放。...

【专利技术属性】
技术研发人员:张承慧贾斌孙波李帆
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1