当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于改进近端策略优化的瓦斯系统动态调度方法技术方案

技术编号:35510868 阅读:20 留言:0更新日期:2022-11-09 14:25
本发明专利技术公开了一种基于改进近端策略优化的瓦斯系统动态调度方法,包括:(1)根据瓦斯系统的调度优化过程,确定生产计划区间和生产、消耗瓦斯装置,建立瓦斯管网模型;(2)根据瓦斯产量和瓦斯管网压力初始值,确定瓦斯管网模型的初始状态并在此基础上迭代更新;(3)根据优化目标函数构建当前状态下评价动作好坏的奖励函数;(4)强化学习智能体模型通过状态得到动作a,更新模型,直到完成一次调度,记录调度过程的状态、动作、奖励,更新模型的网络参数;(5)迭代训练完成后,将模型应用到测试集上测试;(6)将训练好的模型进行瓦斯系统的调度优化。利用本发明专利技术,可以更好地预测瓦斯管网的负荷能力,有效提升瓦斯管网压力平衡度水平。有效提升瓦斯管网压力平衡度水平。有效提升瓦斯管网压力平衡度水平。

【技术实现步骤摘要】
一种基于改进近端策略优化的瓦斯系统动态调度方法


[0001]本专利技术涉及瓦斯系统的平衡、人工智能应用领域,尤其是涉及一种基于改进近端策略优化的瓦斯系统动态调度方法。

技术介绍

[0002]瓦斯系统是炼油企业能量系统的重要组成部分,也是炼油企业最主要的燃料源之一。瓦斯管网是承载瓦斯运输的主要设备,但管网本身的压力有上下限约束,如果瓦斯产量远大于消耗量,瓦斯会突破管网压力上限,容易引发安全隐患;如果瓦斯产量远小于消耗量,瓦斯会低于管网压力下限,容易造成机械故障。
[0003]当前,实际应用于瓦斯系统的调度优化算法较少,多数仍依赖于人工经验或传统方法。无论是采用人工方法的调度还是以启发式算法为主的传统方法,其求得解的性能大多较为一般,人工经验判定的调度规则实际效果随决策者的不同存在很大差距。而启发式算法在有限时间内能够获得的调度策略也仅稍好于人工,且往往存在一定的随机性,无法获得稳定的结果。
[0004]公开号为CN101794119A的中国专利文献公开了一种基于预测数据的瓦斯系统平衡与优化调度方法,包括:从调度系统中获取触发瓦斯系统所需的数据;根据所述所需的数据预测各生产装置未来预设时间段内的瓦斯生成量和加热炉锅炉的能量需求量,得到预测数据;根据预测数据判断所述各生产装置未来预设时间段内瓦斯系统的产需是否平衡,并在所述各生产装置未来预设时间段内瓦斯系统的产需不平衡时,根据所述预测数据优化所述各生产装置未来预设时间段内瓦斯系统的调度策略和调度方案;通过客户端展示优化的所述各生产装置未来预设时间段内瓦斯系统的优化调度策略和调度方案,以便调度人员进行优化调度。但是,该方法对瓦斯系统的产需预测有赖于较为准确的历史数据,如果历史数据不充分或当前的产需数据与历史情况相比发生了较大变化,预测的准确性就难以保证。此外,该方法提出的预测模型还需要事先给定生产计划调度数据,其难以在生产计划动态变化的场景下实现准确预测。另外,该方法提出的调度系统混合整数线性规划算法进行调度,需要反复迭代,存在运行时间较长的问题,难以达到调度的实时性。
[0005]相比于传统方法,将深度强化学习方法用于调度优化问题,是一种全新的数据驱动的求解方式。它有如下优点:
[0006](1)泛化能力:传统方法对于一个新问题大多需要从头开始,通过迭代取得相对较优的解,深度强化学习方法让算法具有学习能力,通过分析和解决一些问题,从而在给定一个新问题时能够有效获得解。
[0007](2)伸缩性:深度强化学习方法有可能将时间复杂度降低到线性,结合成熟的并行加速能力,可以使其应用于大规模问题。
[0008](3)通用性:完成训练的模型可以适用于不同规模、不同参数的问题,不需要再为每个问题设计新的参数训练学习。
[0009]然而,目前学术界和工程界采用深度强化学习算法对炼油企业瓦斯系统调度优化
的研究和应用并不多见。

技术实现思路

[0010]本专利技术提供了一种基于改进近端策略优化的瓦斯系统动态调度方法,面向瓦斯系统进行动态调度,可以更好地预测瓦斯管网的负荷能力,有效提升瓦斯管网压力平衡度水平。
[0011]一种基于改进近端策略优化的瓦斯系统动态调度方法,包括:
[0012](1)根据瓦斯系统的调度优化过程,确定生产计划区间、生产瓦斯的装置以及消耗瓦斯的装置,建立瓦斯管网模型;
[0013](2)根据瓦斯产量和瓦斯管网压力的初始值,确定瓦斯管网模型的初始状态,并在此基础上迭代更新;
[0014](3)根据优化目标函数构建当前状态下评价动作好坏的奖励函数,其由瓦斯消耗装置产生的收益和瓦斯管网压力平衡度表示,公式如下:
[0015][0016]式中,x
ik
表示第i个装置在第k个时间段内的状态,p
ik
表示第i个装置在第k个时间段内能获得的最高收益,c
ik
表示第i个装置在第k个时间段内能达到的最大消耗量,W
k
表示第k个时间段瓦斯管网内的压力大小,W
normal
表示瓦斯管网在完全均衡状态下的压力大小;α
k
表示第k个时间段管网压强不平衡的惩罚因子;n表示装置的数量;
[0017](4)搭建强化学习智能体模型,该模型通过状态得到动作a,更新强化学习智能体模型,直到完成一次调度,记录调度过程的状态、动作、奖励,更新强化学习智能体模型的网络参数,经过迭代训练,提高奖励;
[0018](5)迭代训练完成后,将强化学习智能体模型应用到测试集上,并将管网压力的变化过程可视化,以确保强化学习智能体模型安全可靠;
[0019](6)保存强化学习智能体模型,并将训练好的强化学习智能体模型直接进行瓦斯系统的调度优化。
[0020]进一步地,步骤(1)中,瓦斯系统中消耗瓦斯的装置分为两类,一类是对瓦斯消耗进行开关量选择的装置,即消耗提供的全部瓦斯,或不消耗任何瓦斯;另一类是带有阀门调节瓦斯消耗量的装置,其消耗的瓦斯在0到c
ik
之间连续变化;
[0021]假设第一类装置有m个,其动作的范围x
ik
∈{0,1},i=1,2,...,m;k=1,2,...,N;第二类装置有n

m个,其动作的范围x
jk
∈[0,1],j=m+1,m+2,...,n;k=1,2,...,N。
[0022]步骤(2)中,瓦斯管网模型的状态由当前时刻下各装置的状态和实际管网压力表示,通过向强化学习智能体模型提供当前管网压力,使其具备预测并控制管网压力维持平衡,并增大收益的能力。
[0023]步骤(4)中,强化学习神经网络完成一次调度具体包括如下步骤:
[0024](4

1)首先初始化策略的网络参数θ0,θ
k
为前一次训练得到的参数,每进行一次迭代,θ
k
更新并与环境进行交互,得到一组状态

动作对,β根据KL散度动态调整,使用近端策略优化公式估测优势函数
[0025](4

2)评论家网络学习估算当前策略的价值并根据当前策略参数化得到的的总和的期望来计算未来折扣奖励
[0026](4

3)演员网络学习由θ
π
参数化得到的随机策略π,目的是为了采取具有最大概率使未来回报总和最大化的动作;因此,策略由θ
π
参数化,并在时间t产生可用动作集合的概率分布,公式表示为:
[0027][0028]其中,R表示通过状态s和时间t采取动作a而评估的奖励函数,E表示数学期望;
[0029](4

4)通过计算时序差分误差TD

ERROR对参数进行更新,公式表示为:
[0030][0031](4

5)采用Tanh函数进行激活,Tanh函数表达式如下:
[0032][0033](本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进近端策略优化的瓦斯系统动态调度方法,其特征在于,包括:(1)根据瓦斯系统的调度优化过程,确定生产计划区间、生产瓦斯的装置以及消耗瓦斯的装置,建立瓦斯管网模型;(2)根据瓦斯产量和瓦斯管网压力的初始值,确定瓦斯管网模型的初始状态,并在此基础上迭代更新;(3)根据优化目标函数构建当前状态下评价动作好坏的奖励函数,其由瓦斯消耗装置产生的收益和瓦斯管网压力平衡度表示,公式如下:式中,x
ik
表示第i个装置在第k个时间段内的状态,p
ik
表示第i个装置在第k个时间段内能获得的最高收益,c
ik
表示第i个装置在第k个时间段内能达到的最大消耗量,W
k
表示第k个时间段瓦斯管网内的压力大小,W
normal
表示瓦斯管网在完全均衡状态下的压力大小;α
k
表示第k个时间段管网压强不平衡的惩罚因子;n表示装置的数量;(4)搭建强化学习智能体模型,该模型通过状态得到动作a,更新强化学习智能体模型,直到完成一次调度,记录调度过程的状态、动作、奖励,更新强化学习智能体模型的网络参数,经过迭代训练,提高奖励;(5)迭代训练完成后,将强化学习智能体模型应用到测试集上,并将管网压力的变化过程可视化,以确保强化学习智能体模型安全可靠;(6)保存强化学习智能体模型,并将训练好的强化学习智能体模型直接进行瓦斯系统的调度优化。2.根据权利要求1所述的基于改进近端策略优化的瓦斯系统动态调度方法,其特征在于,步骤(1)中,瓦斯系统中消耗瓦斯的装置分为两类,一类是对瓦斯消耗进行开关量选择的装置,即消耗提供的全部瓦斯,或不消耗任何瓦斯;另一类是带有阀门调节瓦斯消耗量的装置,其消耗的瓦斯在0到c
ik
之间连续变化;假设第一类装置有m个,其动作的范围x
ik
∈{0,1},i=1,2,...,m;k=1,2,...,N;第二类装置有n

m个,其动作的范围x
jk
∈[0,1],j=m+1,m+2,

,n;k=1,2,

,N。3.根据权利要求1所述的基于改进近端策略优化的瓦斯系统动态调度方法,其特征在于,步骤(2)中,瓦斯管网模型的状态由当前时刻下各装置的状态和实际管网压力表示,通过向强化学习智能体模型提供当前管网压力,使其具备预测并控制管网压力维持平衡,并增大收益的能力。4.根据权利要求1所述的基于改进近端策略优化的瓦斯系统动态调度方法,其特征在于,步骤(4)中,强化学习神经网络完成一次调度具体包括如下步骤:(4

1)首先初始化策略的网络参数θ0,θ
...

【专利技术属性】
技术研发人员:谢磊常海颖陈启明苏宏业
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1