当前位置: 首页 > 专利查询>宁德军专利>正文

制冷机房能效优化方法、系统、终端及介质技术方案

技术编号:34856856 阅读:63 留言:0更新日期:2022-09-08 07:58
本发明专利技术提供了一种制冷机房能效优化方法和系统,其中方法包括:构建物理世界制冷机房的数字孪生模型,对状态数据和优化控制行动进行细粒度表示,生成优化策略行动轨迹;构建近端策略优化深度强化学习模型,利用行动轨迹数据进行模型训练,得到制冷机房能效优化智能体模型;基于智能体模型,将状态数据作为模型环境输入,得到推荐的优化行动。本发明专利技术突破物理系统优化策略空间自由尝试行动的限制,解决深度强化学习模型训练所需的数据多样性问题;通过近端策略优化深度强化学习模型的智能体训练,实现随着高效制冷机房运行过程中日益增加的高质量数据集,能够持续提升算法精度,从而满足工程级智能能效优化应用的准确性要求。满足工程级智能能效优化应用的准确性要求。满足工程级智能能效优化应用的准确性要求。

【技术实现步骤摘要】
制冷机房能效优化方法、系统、终端及介质


[0001]本专利技术涉及高效制冷机房能效优化
,具体地,涉及一种基于数字孪生和智能体深度强化学习的制冷机房能效优化方法、系统、终端及介质,适用于工业企业或建筑等的高效制冷机房能效优化。

技术介绍

[0002]能效优化算法的历史悠久,主要分为基于机理模型的能效优化算法、基于数据驱动的能效优化算法等。基于机理模型的能效优化算法由于很难对大型高效制冷机房建立精确的数学模型,因此不适用于大规模复杂的制冷机房系统。目前,随着大数据时代的到来,基于数据驱动的能效优化算法成为技术发展的主流方向,它通过对系统运行中产生的大量历史数据进行分析处理和建模,从而识别能效最优的运行策略。
[0003]鉴于许多高能耗企业的制冷机房的能耗占企业总能耗的近50%,因此,高效制冷机房的能效优化越发重要。近年来,深度强化学习正成为一种领先的策略优化方法,各种深度强化学习算法如深度Q学习网络(DQN)、近端策略优化算法(PPO)、优势演员评论算法(A2C)、PDPG和DDPG等在众多任务上取得了令人惊喜的成果,尤其是在AI玩游戏、下围棋等领域。然而上述的方法一般基于一种假设:智能体策略空间中的各种动作可以自由尝试,以便获取足够的<状态、行动、奖励>数据序列;各种序列有明确的开始和结束定义,且潜在收益比较明确。然而,在高能耗工厂的实际环境中,由于不同的生产可靠性和工艺过程要求,导致上述假设在大多数实际工业场景中都不成立。因此,当前上述先进的深度强化学习算法还无法有效地应用到高能耗企业制冷机房的实际能效优化过程中,少数的应用由于数据多样性的不足导致准确率无法满足工程使用要求,大大地制约了深度强化学习方法的推广和工程化。

技术实现思路

[0004]本专利技术针对现有技术中存在的上述不足,提供了一种制冷机房能效优化方法、系统、终端及介质。
[0005]根据本专利技术的一个方面,提供了一种制冷机房能效优化方法,包括:
[0006]构建物理世界制冷机房所对应的机房数字孪生模型,并基于物理世界制冷机房的状态数据在所述机房数字孪生模型上的可视化,对状态数据和优化控制行动进行细粒度表示,以便准确记录采取的行动和环境状态变化,生成优化策略行动轨迹;所述行动轨迹包括多组按照时间顺序执行的<状态、行动、奖励>数据序列;
[0007]构建近端策略优化深度强化学习模型,并利用所述行动轨迹对所述近端策略优化深度强化学习模型进行训练,得到制冷机房能效优化智能体模型;
[0008]基于所述制冷机房能效优化智能体模型,将待处理的物理世界制冷机房的状态数据作为输入,得到对应的推荐行动数据,用于对制冷机房能效进行优化。
[0009]可选地,所述构建物理世界制冷机房所对应的机房数字孪生模型,包括:
[0010]定义物理世界制冷机房的物理系统;
[0011]定义每一个所述物理系统的主要状态表征;
[0012]对所述主要状态表征进行数据采集;
[0013]基于采集的所述主要状态表征的相应数据,定义每一个所述物理系统的信息虚体,所述信息虚体包括状态向量和行动向量;其中,所述状态向量由所述实时感知的主要状态表征数据组成,所述行动向量由实现每一个所述物理系统可执行的控制行动列表组成;
[0014]构建所述信息虚体的可视化仿真控制界面,得到机房数字孪生模型;
[0015]所述生成优化策略行动轨迹,包括:
[0016]通过所述机房数字孪生模型,执行一对当前状态向量细粒度进行优化控制的行动,并通过物理系统获得行动后的能效值和执行后的状态向量;
[0017]重复上一个步骤,生成<当前状态、行动、奖励、下一状态>数据序列,并将所述数据序列按照时间顺序排列生成行动轨迹。
[0018]可选地,还包括:
[0019]所述物理世界高效制冷机房的物理系统,包括:冷机系统、冷却侧系统、一次侧系统和二次侧系统;
[0020]所述主要状态表征,包括:开关状态、负荷率、出水温度、进水温度、功率和水流量;
[0021]所述状态向量,包括:开关状态、负荷率、出水温度、进水温度、功率和水流量;
[0022]所述行动向量,包括:冷却塔运行台数+/

、冷却塔出水温度+/

、冷却塔风机频率+/

、冷却泵台数+/

和/或冷却泵温差+/


[0023]所述执行一对当前状态向量细粒度进行优化控制的行动,包括:专家系统通过所述信息虚体的可视化仿真控制界面,基于领域知识,执行对当前状态向量细粒度的优化控制。
[0024]可选地,所述构建近端策略优化深度强化学习模型,并利用所述行动轨迹对所述近端策略优化深度强化学习模型进行训练,得到制冷机房能效优化智能体模型,包括:
[0025]采用标准的N层全连接神经网络搭建所述近端策略优化深度强化学习模型,包括:输入层、多个隐含层和输出层,利用所述行动轨迹对所述近端策略优化深度强化学习模型进行训练;其中:
[0026]所述输入层用于输入所述行动轨迹中的状态向量数据或状态向量数据的子集;
[0027]多个所述隐含层用于将输入数据的特征,抽象到另一个维度空间,可展现更抽象的特征;
[0028]所述输出层采用Softmax激活函数作为分类器,用于输出优化策略行动轨迹中每个行动的概率;
[0029]对所述制冷机房能效优化智能体模型的目标函数进行设计,完成对所述制冷机房能效优化智能体模型的构建。
[0030]可选地,还包括:
[0031]所述输入层的输入宽度等于输入的状态向量数据的长度;所述输入层的输出宽度为输入宽度的任意倍数;
[0032]所述近端策略优化深度强化学习模型的第N层神经网络的输出宽度为行动向量数据的长度。
[0033]可选地,所述制冷机房能效优化智能体模型采用基于策略对的深度强化学习模型,其目标函数的设计方法,包括:
[0034][0035]或者
[0036][0037]其中,n为第n条执行轨迹,为近端策略优化PPO算法目标函数,T
n
为第n条执行轨迹的长度,π
θ
为当前优化策略函数,π
θ

为原优化策略函数,a
t
为第t 步所执行的行动,s
t
为第t步的状态,θ为当前优化策略,θ

为原优化策略,λ为可调节的算法超参数,KL为KL散度,为近端策略优化PPO2算法目标函数,ε为任意的较小值,为算法的可训练超参数;函数的含义是当则结果为1+ε;当则结果为1

ε;否则为
[0038]为与策略θ

相关的优势函数,其定义如下所示:
[0039][0040]其中,为状态的状态价值函数值,可由单独的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种制冷机房能效优化方法,其特征在于,包括:构建物理世界制冷机房所对应的机房数字孪生模型,并基于物理世界制冷机房的状态数据在所述机房数字孪生模型上的可视化,对状态数据和优化控制行动进行细粒度表示,生成优化策略行动轨迹;所述行动轨迹包括多组按照时间顺序执行的<状态、行动、奖励>数据序列;构建近端策略优化深度强化学习模型,并利用所述行动轨迹对所述近端策略优化深度强化学习模型进行训练,得到制冷机房能效优化智能体模型;基于所述制冷机房能效优化智能体模型,将待处理的物理世界制冷机房的状态数据作为输入,得到对应的推荐行动数据,用于对制冷机房能效进行优化。2.根据权利要求1所述的制冷机房能效优化方法,其特征在于,所述构建物理世界制冷机房所对应的机房数字孪生模型,包括:定义物理世界制冷机房的物理系统;定义每一个所述物理系统的主要状态表征;对所述主要状态表征进行数据采集;基于采集的所述主要状态表征的相应数据,定义每一个所述物理系统的信息虚体,所述信息虚体包括状态向量和行动向量;其中,所述状态向量由实时感知的所述主要状态表征数据组成,所述行动向量由实现每一个所述物理系统可执行的控制行动列表组成;构建所述信息虚体的可视化仿真控制界面,得到机房数字孪生模型;所述生成优化策略行动轨迹,包括:通过所述机房数字孪生模型,执行一对当前状态向量细粒度进行优化控制的行动,并通过物理系统获得行动后的能效值和执行后的状态向量;重复上一个步骤,生成<当前状态、行动、奖励、下一状态>数据序列,并将所述数据序列按照时间顺序排列生成行动轨迹。3.根据权利要求2所述的制冷机房能效优化方法,其特征在于,还包括:所述物理世界高效制冷机房的物理系统,包括:冷机系统、冷却侧系统、一次侧系统和二次侧系统;所述主要状态表征,包括:开关状态、负荷率、出水温度、进水温度、功率和水流量;所述状态向量,包括:开关状态、负荷率、出水温度、进水温度、功率和水流量;所述行动向量,包括:冷却塔运行台数+/

、冷却塔出水温度+/

、冷却塔风机频率+/

、冷却泵台数+/

和/或冷却泵温差+/

;所述执行一对当前状态向量细粒度进行优化控制的行动,包括:专家系统通过所述信息虚体的可视化仿真控制界面,基于领域知识,执行对当前状态向量细粒度的优化控制。4.根据权利要求1所述的制冷机房能效优化方法,其特征在于,所述构建近端策略优化深度强化学习模型,并利用所述行动轨迹对所述近端策略优化深度强化学习模型进行训练,得到制冷机房能效优化智能体模型,包括:采用标准的N层全连接神经网络搭建所述近端策略优化深度强化学习模型,包括:输入层、多个隐含层和输出层,并利用所述行动轨迹对所述近端策略优化深度强化学习模型进行训练;其中:所述输入层用于输入所述行动轨迹中的状态向量数据或状态向量数据的子集;
多个所述隐含层用于将输入数据的特征,抽象到另一个维度空间;所述输出层采用Softmax激活函数作为分类器,用于输出优化策略行动轨迹中每个行动的概率;对所述制冷机房能效优化智能体模型的目标函数进行设计,完成对所述制冷机房能效优化智能体模型的构建。5.根据权利要求4所述的制冷机房能效优化方法,其特征在于,还...

【专利技术属性】
技术研发人员:宁德军汪德龙张智权
申请(专利权)人:宁德军
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1