一种多源热网加热器优化调度方法、系统、设备及介质技术方案

技术编号:35407947 阅读:11 留言:0更新日期:2022-11-03 11:02
本发明专利技术公开了一种多源热网加热器优化调度方法、系统、设备及介质,S1,采用深度确定性策略梯度强化学习算法对热负荷进行分配试错探索,得到热网供水温度设定值;S2,热网供水温度设定值输入至广义预测控制层,得到热负荷指令;S3,热负荷指令输入至PID阀门基础控制层,对阀门开度进行调节。解决多源热网调度过程中依赖人工经验,系统运行低效,调度经济性不高的问题。的问题。的问题。

【技术实现步骤摘要】
一种多源热网加热器优化调度方法、系统、设备及介质


[0001]本专利技术属于热网热负荷调度领域,涉及一种多源热网加热器优化调度方法、系统、设备及介质。

技术介绍

[0002]目前在我国居民供热中,主要由热电厂对外提供供热抽汽对居民热网循环水进行加热,但往往由于热网供热面积和热网传输长度的制约,在热电厂对外供热调整中往往采用粗放的调整模式,仅仅根据当前汽温以及热网回水温度进行粗放的手动调整,且每天的调整频率很低,缺乏精细化目标的控制。为了保证居民供热质量不受影响,该类供热机组控制模式很容易造成供热资源的大幅度浪费,不利于实现供热机组的节能降碳运行。多源热网调度过程中存在调度过度依赖人工经验,系统运行低效,调度经济性不高的问题。

技术实现思路

[0003]本专利技术的目的在于克服上述现有技术的缺点,提供一种多源热网加热器优化调度方法、系统、设备及介质,解决多源热网调度过程中依赖人工经验,系统运行低效,调度经济性不高的问题。
[0004]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0005]一种多源热网加热器优化调度方法,包括以下过程:
[0006]S1,采用深度确定性策略梯度强化学习算法对热负荷进行分配试错探索,得到热网供水温度设定值;
[0007]S2,热网供水温度设定值输入至广义预测控制层,得到热负荷指令;
[0008]S3,热负荷指令输入至PID阀门基础控制层,对阀门开度进行调节。
[0009]优选的,S1中,深度确定性策略梯度强化学习算法包括在线策略网络和在线估值网络;
[0010]在线策略网络根据当前多热源热网加热器的状态,执行动作,获得回报和下一状态,将生成的序列保存到经验池中,同时从经验池中取出样本,更新在线策略网络的损失函数;
[0011]在线估值网络根据当前时刻经验池中样本状态给出行为值函数,根据行为值函数更新在线估值网络的损失函数;
[0012]在线估值网络使其损失函数最小,从而行为值函数最大,将行为值函数输入至在线策略网络中,在线策略网络使其损失函数最小,从而值函数最大,进而输出最优动作,最优动作即最优的热网供水温度设定值。
[0013]进一步,多热源热网加热器的状态为其热负荷和抽汽供热流量。
[0014]进一步,在线策略网络的损失函数J为:
[0015][0016]m表示从经验池中取出m个样本,Q(s
i
,a
i
,θ
u
)为根据策略采取行动后的行为值函数,行为值函数表示采用某种动作后的值函数,为s
i
状态,a
i
为执行动作,训练过程中希望值函数最大,因此神经网络反向传播更新在线策略网络参数θ
u
,使得损失函数最小;
[0017]在线估值网络的损失函数如下:
[0018][0019]y
i
=r
i
+Q

(s
i+1
,u

(s
i+1

u

)|θ
Q

)
[0020]其中,θ
Q
为在线估值网络参数,神经网络反向传播更新在线估值网络参数θ
Q
,使损失函数最小,r
i
为执行动作后的立即回报,Q

为下一状态s
i+1
的行为值函数,θ
Q

为目标估值网络参数为,θ
u

为目标策略网络参数,y
i
为行为值函数。
[0021]再进一步,在线策略网络向目标策略网络输出其权值矩阵,在线估值网络向目标估值网络输出其权值矩阵,目标策略网络从经验根据经验池中下一状态s
i+1
选择值函数的最优动作,目标估值网络计算选择动作后的行为值函数,目标策略网络和目标估值网络选择滑动平均法从当前网络复制最新网络参数,得到下一状态的值函数输入至在线估值网络中。
[0022]优选的,S2的具体过程为,采用广义预测控制算法得到反馈控制值,采用前馈控制值对反馈控制值进行补偿,得到热负荷指令;
[0023]广义预测控制算法计算中,采用热网供水温度设定值和热网供水温度反馈值作为的设定值和反馈值。
[0024]优选的,S3的具体过程为,将每台热网加热器的热负荷指令与乘以每台热网加热器热负荷优化分配系数,作为每台热网加热器的热负荷指令设定值;将每台热网加热器的热负荷指令设定值和热负荷反馈值进行控制率的计算,得到控制指令,采用控制指令对对应热网加热器的阀门开度进行调节。
[0025]一种多源热网加热器优化调度系统,包括:
[0026]热网供水温度设定值计算模块,用于采用深度确定性策略梯度强化学习算法对热负荷进行分配试错探索,得到热网供水温度设定值;
[0027]热负荷指令获取模块,用于热网供水温度设定值输入至广义预测控制层,得到热负荷指令;
[0028]调节模块,用于热负荷指令输入至PID阀门基础控制层,对阀门开度进行调节。
[0029]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述多源热网加热器优化调度方法的步骤。
[0030]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述多源热网加热器优化调度方法的步骤。
[0031]与现有技术相比,本专利技术具有以下有益效果:
[0032]本专利技术采用深度确定性策略梯度强化学习算法对热负荷进行分配试错探索,寻找最优供热策略,策略为状态下选择的最优动作,使值函数最大。状态为状态为多热源机组负荷和抽汽供热流量,动作为热网供水温度设定值,值函数为考虑未来利益的长期回报,综合
考虑经济性和安全性,强化学习算法具有越学越好的能力,初始训练时,强化学习算法不能给出最优策略,运行一段时间后,经过算法的探索,学习到使值函数最优的控制策略,向广义预测控制层发出适合的供热给水决策,解决多源热网调度过程中依赖人工经验,系统运行低效,调度经济性不高的问题。
[0033]进一步,基于热负荷预测的前馈控制+基于广义预测控制的反馈控制相结合的联合供热机组闭环运行控制模式。结合单元机组热负荷指令+构建的单元机组热负荷反馈,将广义预测控制+热负荷预测的前馈+反馈的复合控制模式三者结合,不仅可以提升供热机组的调整快速性和及时性,同时通过广义预测控制构建的反馈回路,实现对供热抽汽流量的精准快速调整。
附图说明
[0034]图1为本专利技术的多源热网加热器优化调度的流程示意图;
[0035]图2为本专利技术的强化学习优化层的原理示意图;
[0036]图3为本专利技术的供热机组安全区范围示意图;
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源热网加热器优化调度方法,其特征在于,包括以下过程:S1,采用深度确定性策略梯度强化学习算法对热负荷进行分配试错探索,得到热网供水温度设定值;S2,热网供水温度设定值输入至广义预测控制层,得到热负荷指令;S3,热负荷指令输入至PID阀门基础控制层,对阀门开度进行调节。2.根据权利要求1所述的多源热网加热器优化调度方法,其特征在于,S1中,深度确定性策略梯度强化学习算法包括在线策略网络和在线估值网络;在线策略网络根据当前多热源热网加热器的状态,执行动作,获得回报和下一状态,将生成的序列保存到经验池中,同时从经验池中取出样本,更新在线策略网络的损失函数;在线估值网络根据当前时刻经验池中样本状态给出行为值函数,根据行为值函数更新在线估值网络的损失函数;在线估值网络使其损失函数最小,从而行为值函数最大,将行为值函数输入至在线策略网络中,在线策略网络使其损失函数最小,从而值函数最大,进而输出最优动作,最优动作即最优的热网供水温度设定值。3.根据权利要求2所述的多源热网加热器优化调度方法,其特征在于,多热源热网加热器的状态为其热负荷和抽汽供热流量。4.根据权利要求2所述的多源热网加热器优化调度方法,其特征在于,在线策略网络的损失函数J为:m表示从经验池中取出m个样本,Q(s
i
,a
i

u
)为根据策略采取行动后的行为值函数,行为值函数表示采用某种动作后的值函数,为s
i
状态,a
i
为执行动作,训练过程中希望值函数最大,因此神经网络反向传播更新在线策略网络参数θ
u
,使得损失函数最小;在线估值网络的损失函数如下:y
i
=r
i
+Q

(s
i+1
,u

(s
i+1

u

)|θ
Q

)其中,θ
Q
为在线估值网络参数,神经网络反向传播更新在线估值网络参数θ
Q
,使损失函数最小,r
i
为执行动...

【专利技术属性】
技术研发人员:程仁静蔡浩飞韩艳水孙佰明姚国鹏白烨王鑫周学鹏单林林王哲然
申请(专利权)人:中国华能集团清洁能源技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1