一种基于强化学习Q-learning的空压站运维优化方法技术

技术编号：38581764 阅读：9 留言：0更新日期：2023-08-26 23:26

本发明专利技术涉及一种基于强化学习Q

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习Q
‑
learning的空压站运维优化方法

[0001]本专利技术涉及空压站系统的模型构建与运维智能优化领域，尤其是涉及一种基于强化学习Q
‑
learning的空压站运维优化方法。

技术介绍

[0002]压缩空气管道系统简称空压系统。据统计，一个企业的日常生产中空压系统占各类耗电设备总耗电量的可达到四分之一。在企业能耗的各项成本中，空压系统在其全生命周期的运维成本在所有成本中的占比高达75％。因此，采用恰当的空压站智能运维优化算法并有效降低压缩空气管道系统总能耗，对企业的降本增效中发挥着越来越重要的作用。
[0003]空压系统的运维策略优化是一个NP难问题，对于大规模问题的求解费时费力，甚至可能无法在有限时间内完成求解。当前，针对空压站运维策略优化问题主要依靠以爬山算法、A*算法等为代表的启发式算法，以遗传算法、模拟退火算法等为代表的元启发式算法和以TPE为代表的搜索算法等。这些算法通常存在可行解寻找上困难、无法自主决策、算法内核固定难以根据设计和调整启发式函数适应变化、通常只考虑短期收益无法很好地处理长期规划和全局优化等问题。
[0004]即在上述问题上，鲜少有研究贴合实际空压站运维工况去改进优化算法，导致其空压站运维控制系统中模型的建立脱离实际工况，最终导致难以获得更好的优化效果，压缩空气管道系统的总能耗居高不下，其运维控制方法的改进迫在眉睫。

技术实现思路

[0005]本专利技术针对使用启发式算法、元启发式算法等传统求解方法在空

【技术保护点】

【技术特征摘要】
1.一种基于强化学习Q
‑
learning的空压站运维优化方法，其特征在于，包括以下步骤：S1：根据空压站供气管网的拓扑结构搭建管网模型，构建空压站能耗的数学模型，模型中的决策变量设置为空压站的启停时间、补气压力与供气比，优化的目标设置为空压站全天能耗最小，使用Q
‑
Learning算法作为代理进行优化；S2：初始化Q
‑
Learning的参数，所述参数包括学习率，使用衰减函数控制学习率的衰减，以及构建一个Q表格来存储状态动作值；S3：根据当前的状态和学习率的大小，采用ε
‑
greedy策略选择一个动作；S4：根据当前的状态、动作、奖励、下一个状态以及结束标志，更新Q表格中对应状态动作值的估计值；S5：通过在Q表格中搜索，找到具有最高Q值的动作，即当前状态下的最优动作，将其作为代理的下一步动作，这个动作所对应的状态即为问题的最优解状态，作为最优的空压系统运行策略，最终实现空压系统总运行能耗最低的优化目标。2.根据权利要求1所述的一种基于强化学习Q
‑
learning的空压站运维优化方法，其特征在于，S1中，所述空压站管网模型中，将空压站的启停时间、补气压力与供气比作为决策变量，将空压站全天能耗最小作为目标函数：其中，P(
·
)为空压站能耗计算公式，分别为第k次补气的开始时间与结束时间，p
k
,k＝1,2,
…
,n为第k次补气的补气压力，γ
i
,i＝1,2,
…
,m为第i处供气交叉点的供气比。3.根据权利要求1所述的一种基于强化学习Q
‑
learning的空压站运维优化方法，其特征在于，S2中，所述Q
‑
Learning的参数还包括状态空间大小、动作空间大小、折扣因子、学习率的衰减率；所述Q表格为状态动作对的二维表格，其值表示在某一状态下采取某一动作的期望回报值，对于一个状态s和动作a，其对应的Q值表示为Q(s,A)。4.根据权利要求1所述的一种基于强化学习Q
‑
learning的空压站运维优化方法，其特征在于，S3中，在每次状态选择时，以学习率ε(0≤ε≤1)的概率随机选择一个动作，以1
‑
ε的概率选择当前状态下估计价值最大的动作。5.根据权利要求4所述的一种基于强化学习Q
‑
learning的空压站运维优化方法，其特征在于，S3中，所述学习率ε用于控制代理在学习初期的探索行为，随着学习次数的增加，学习率会逐渐减小，减小方式采用多项式衰减：其中，ε
t
是第t次迭代的学习率，ε0表示初始学习率，T为训练总次数，p是一个控制衰减速度的超参数。6.根据权利要求5所述的一种基于强化学习Q
‑
learning的空压站运维优化方法，其特征在于，S3中，动作选择过程中，根据当前状态和选择的动作得到一...

【专利技术属性】
技术研发人员：郑瀛，张郑涵，蔡振坤，陆晟标，刘毅，梁星宇，张春路，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人