当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于强化学习Q-learning的空压站运维优化方法技术

技术编号:38581764 阅读:9 留言:0更新日期:2023-08-26 23:26
本发明专利技术涉及一种基于强化学习Q

【技术实现步骤摘要】
一种基于强化学习Q

learning的空压站运维优化方法


[0001]本专利技术涉及空压站系统的模型构建与运维智能优化领域,尤其是涉及一种基于强化学习Q

learning的空压站运维优化方法。

技术介绍

[0002]压缩空气管道系统简称空压系统。据统计,一个企业的日常生产中空压系统占各类耗电设备总耗电量的可达到四分之一。在企业能耗的各项成本中,空压系统在其全生命周期的运维成本在所有成本中的占比高达75%。因此,采用恰当的空压站智能运维优化算法并有效降低压缩空气管道系统总能耗,对企业的降本增效中发挥着越来越重要的作用。
[0003]空压系统的运维策略优化是一个NP难问题,对于大规模问题的求解费时费力,甚至可能无法在有限时间内完成求解。当前,针对空压站运维策略优化问题主要依靠以爬山算法、A*算法等为代表的启发式算法,以遗传算法、模拟退火算法等为代表的元启发式算法和以TPE为代表的搜索算法等。这些算法通常存在可行解寻找上困难、无法自主决策、算法内核固定难以根据设计和调整启发式函数适应变化、通常只考虑短期收益无法很好地处理长期规划和全局优化等问题。
[0004]即在上述问题上,鲜少有研究贴合实际空压站运维工况去改进优化算法,导致其空压站运维控制系统中模型的建立脱离实际工况,最终导致难以获得更好的优化效果,压缩空气管道系统的总能耗居高不下,其运维控制方法的改进迫在眉睫。

技术实现思路

[0005]本专利技术针对使用启发式算法、元启发式算法等传统求解方法在空压站智能运维策略中存在的不足和缺陷,提出了一种基于强化学习算法的空压站运维智能优化算法。能够最大化地结合实际工况,基于该强化学习算法,优化空压站储气罐在启动与停止时间、补气压力与供气比和供气压力满足实际要求等需求的限制与约束下,求解最优的空压系统运行策略,最终实现空压系统总运行能耗最低的优化目标。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]本专利技术提供了一种基于强化学习Q

learning的空压站运维优化方法,包括以下步骤:
[0008]S1:根据空压站供气管网的拓扑结构搭建管网模型,构建空压站能耗的数学模型,模型中的决策变量设置为空压站的启停时间、补气压力与供气比,优化的目标设置为空压站全天能耗最小,使用Q

Learning算法作为代理进行优化;
[0009]S2:初始化Q

Learning的参数,所述参数包括学习率,使用衰减函数控制学习率的衰减,以及构建一个Q表格来存储状态动作值;
[0010]S3:根据当前的状态和学习率的大小,采用ε

greedy策略选择一个动作;
[0011]S4:根据当前的状态、动作、奖励、下一个状态以及结束标志,更新Q表格中对应状态动作值的估计值;
[0012]S5:通过在Q表格中搜索,找到具有最高Q值的动作,即当前状态下的最优动作,将其作为代理的下一步动作,这个动作所对应的状态即为问题的最优解状态,作为最优的空压系统运行策略,最终实现空压系统总运行能耗最低的优化目标。
[0013]进一步地,S1中,所述空压站管网模型中,将空压站的启停时间、补气压力与供气比作为决策变量,将空压站全天能耗最小作为目标函数:
[0014][0015]其中,P(
·
)为空压站能耗计算公式,分别为第k次补气的开始时间与结束时间,p
k
,k=1,2,

,n为第k次补气的补气压力,γ
i
,i=1,2,

,m为第i处供气交叉点的供气比。
[0016]进一步地,S2中,所述Q

Learning的参数还包括状态空间大小、动作空间大小、折扣因子、学习率的衰减率;
[0017]所述Q表格为状态动作对的二维表格,其值表示在某一状态下采取某一动作的期望回报值,对于一个状态s和动作a,其对应的Q值表示为Q(s,a)。
[0018]通过Q

Learning算法在经验中寻找最优策略,以此实现空压站全天能耗最小的优化目标,Q

Learning算法是一种无模型学习方法,通过估计状态动作对的价值函数来学习最优策略。Q

Learning的学习过程主要包括:状态选择、动作选择和状态更新这三个步骤。
[0019]进一步地,S3中,在每次状态选择时,以学习率ε)0≤ε≤1)的概率随机选择一个动作,以1

ε的概率选择当前状态下估计价值最大的动作。
[0020]进一步地,S3中,所述学习率ε用于控制代理在学习初期的探索行为,随着学习次数的增加,学习率会逐渐减小,减小方式采用多项式衰减:
[0021][0022]其中,ε
t
是第t次迭代的学习率,ε0表示初始学习率,T为训练总次数,p是一个控制衰减速度的超参数。使用多项式衰减函数可以使得学习率在整个训练过程中呈现平稳下降的趋势,便于更好地适应各种训练场景。
[0023]进一步地,S3中,动作选择过程中,根据当前状态和选择的动作得到一个新的状态和相应的奖励值;
[0024]所述奖励值表示代理在当前状态下选择该动作所得到的收益或惩罚,所述奖励值由奖励值函数获得。
[0025]进一步地,S3中,所述奖励值函数根据式(1)所确定的空压站全天的能耗函数进行计算,将约束的满足与否加入共同筛选:
[0026][0027]其中,V(t)为第t次迭代的奖励值,P(
·
)为空压站全天的能耗函数,计算方式为式(1)确定,M为惩罚对应数值。即储气罐在启动与停止时间、补气压力与供气比和供气压力满足实际要求等需求的限制与约束的情况下奖励值即为目标函数,当不满足约束时,奖励值函数成为一个很大的数作为惩罚使得该状态、动作被筛选掉不再考虑。
[0028]进一步地,S4中,状态更新过程中,使用学习率和折扣因子更新Q表格中对应状态
动作值的估计值;
[0029]S4中,在每次状态更新时,代理根据当前状态、动作、奖励、下一个状态以及结束标志更新Q表格中对应状态动作值的估计值,具体更新方式为:
[0030]Q(s,a)=(1

ε
t
)*Q(s,a)+ε
t
*(r+γ*maxQ(s

,a

))(4)
[0031]其中,ε
t
表示第t次迭代的学习率,由式(2)确定,
[0032]r表示在状态s选择动作a所得到的奖励值,
[0033]γ表示折扣因子,
[0034]s

表示执行动作a后得到的下一个状态,
[0035]maxQ(s

,a

)表示在状态s
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习Q

learning的空压站运维优化方法,其特征在于,包括以下步骤:S1:根据空压站供气管网的拓扑结构搭建管网模型,构建空压站能耗的数学模型,模型中的决策变量设置为空压站的启停时间、补气压力与供气比,优化的目标设置为空压站全天能耗最小,使用Q

Learning算法作为代理进行优化;S2:初始化Q

Learning的参数,所述参数包括学习率,使用衰减函数控制学习率的衰减,以及构建一个Q表格来存储状态动作值;S3:根据当前的状态和学习率的大小,采用ε

greedy策略选择一个动作;S4:根据当前的状态、动作、奖励、下一个状态以及结束标志,更新Q表格中对应状态动作值的估计值;S5:通过在Q表格中搜索,找到具有最高Q值的动作,即当前状态下的最优动作,将其作为代理的下一步动作,这个动作所对应的状态即为问题的最优解状态,作为最优的空压系统运行策略,最终实现空压系统总运行能耗最低的优化目标。2.根据权利要求1所述的一种基于强化学习Q

learning的空压站运维优化方法,其特征在于,S1中,所述空压站管网模型中,将空压站的启停时间、补气压力与供气比作为决策变量,将空压站全天能耗最小作为目标函数:其中,P(
·
)为空压站能耗计算公式,分别为第k次补气的开始时间与结束时间,p
k
,k=1,2,

,n为第k次补气的补气压力,γ
i
,i=1,2,

,m为第i处供气交叉点的供气比。3.根据权利要求1所述的一种基于强化学习Q

learning的空压站运维优化方法,其特征在于,S2中,所述Q

Learning的参数还包括状态空间大小、动作空间大小、折扣因子、学习率的衰减率;所述Q表格为状态动作对的二维表格,其值表示在某一状态下采取某一动作的期望回报值,对于一个状态s和动作a,其对应的Q值表示为Q(s,A)。4.根据权利要求1所述的一种基于强化学习Q

learning的空压站运维优化方法,其特征在于,S3中,在每次状态选择时,以学习率ε(0≤ε≤1)的概率随机选择一个动作,以1

ε的概率选择当前状态下估计价值最大的动作。5.根据权利要求4所述的一种基于强化学习Q

learning的空压站运维优化方法,其特征在于,S3中,所述学习率ε用于控制代理在学习初期的探索行为,随着学习次数的增加,学习率会逐渐减小,减小方式采用多项式衰减:其中,ε
t
是第t次迭代的学习率,ε0表示初始学习率,T为训练总次数,p是一个控制衰减速度的超参数。6.根据权利要求5所述的一种基于强化学习Q

learning的空压站运维优化方法,其特征在于,S3中,动作选择过程中,根据当前状态和选择的动作得到一...

【专利技术属性】
技术研发人员:郑瀛张郑涵蔡振坤陆晟标刘毅梁星宇张春路
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1