一种基于强化学习的制冷机组控制装置及控制方法制造方法及图纸

技术编号:27284013 阅读:43 留言:0更新日期:2021-02-06 11:51
本发明专利技术涉及一种基于强化学习的制冷机组控制装置及控制方法。主要包括数据采集模块和数据处理模块,所述数据采集模块用于获取环境数据,所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。上述装置通过采集环境数据,并建立环境模型,然后通过DDPG算法求解最优控制策略,通过最优控制策略来控制各个相关设备的运转。这样可在保证中央空调系统正常运转的同时,使得总能耗较低。使得总能耗较低。使得总能耗较低。

【技术实现步骤摘要】
一种基于强化学习的制冷机组控制装置及控制方法


[0001]本专利技术涉及控制领域,特别是涉及基于强化学习的制冷机组控制装置及控制方法。

技术介绍

[0002]随着经济的发展,大型建筑内应用了中央空调系统来调节建筑物内部温度。中央空调系统的主要耗能设备包括冷冻泵、冷却泵以及制冷压缩机。这些设备可通过无极调节方式进行调节。但这些设备如何相互配合才能达到总能耗较低且保证中央空调系统正常运转,这已经成为一个难题。

技术实现思路

[0003]基于此,有必要提供一种基于强化学习的制冷机组控制装置。该装置有利于在保证中央空调系统正常运转的同时,使得总能耗较低。
[0004]一种基于强化学习的制冷机组控制装置,
[0005]包括数据采集模块和数据处理模块,
[0006]所述数据采集模块用于获取环境数据,
[0007]所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。
[0008]上述装置通过采集环境数据,并建立环境模型,然后通过DDPG算法求解最优控制策略,通过最优控制策略来控制各个相关设备的运转。这样可在保证中央空调系统正常运转的同时,使得总能耗较低。
[0009]在其中一个实施例中,
[0010]所述根据所述数据建立环境模型,包括:
[0011]将制冷机组控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数:
[0012]状态:用s表示,设t时刻,总能耗为P
q
,冷冻水出水温度为T
o
、冷却水进水温度为T
i
、冷冻泵的出水口的冷冻水流量为V0、冷却泵的出水口的冷却水流量为V
i
,则此时刻的状态可表示为:
[0013]S
t
=(P
q
,T
o
,T
i
,V
o
,V
i
),
[0014]其中,冷冻水出水温度T
o
的限制范围为:5≤T
o
≤12,冷却水进水温度T
i
的限制范围为:22≤T
i
≤33,冷冻泵的冷冻水流量V0的限制范围为:63≤V
o
≤105,冷却泵的冷却水流量V
i
的限制范围为:75≤V
i
≤125,动作,用a表示,t时刻的动作a用[设置冷冻泵,设置冷却泵,设置制冷压缩机]表示,其中,设置冷冻泵用O
d
表示,设置冷却泵用O
q
表示,设置制冷压缩机用O
y
表示,则t时刻可采取的动作集合为:
[0015]a={[O
d0
,O
q0
,O
y0
],[O
d1
,O
q1
,O
y1
],[O
d2
,O
q2
,O
y2
],...},
[0016]立即奖赏函数,用r表示,其中,若t时刻采用动作a后,冷冻水出水温度T
o
在限制范围外,或冷却水进水温度T
i
在限制范围外,或冷冻泵的冷冻水流量V0在限制范围外,或冷却泵的冷却水流量V
i
在限制范围外,则r=-100P
q
,否则,r=-P
q

[0017]建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。
[0018]在其中一个实施例中,
[0019]所述DDPG算法的经验回放池的数量为两个,分别为B1经验回放池和B2经验回放池,具有高TD误差的经验存储在B2经验回放池,其他经验存储在B1经验回放池中,当进行采样时,从B1经验回放池中采样一部分,从B2经验回放池中采样一部分,且从B2经验回放池中采样的概率的初始值为8%到12%,且所述概率随着时间的后移逐渐降低。
[0020]在其中一个实施例中,
[0021]所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络,所述DDPG算法通过以下最小化损失函数来更新每个评论家网络:
[0022]L
MC

i
)=αL
avg
(θ)+βL
tar

i
)+η(Q
i
(s,a,θ
i
)-Q
avg
(s,a,θ))2,其中,L
MC

i
)为平均评论家的损失函数平均值,α,β和η为权重,α,β和η都是0到1之间的浮点数,α和β加起来等于1,L
avg
(θ)为评论家网络的损失函数平均值,L
tar

i
)为目标评论家网络的损失函数值,其中,是目标评论家网络的Q值平均值,Q
avg
(s,a,θ)为K个在线评论家网络的Q值平均值,r(s,a)为立即奖赏,其中,K为在线评论家网络的个数,Q
i
(s,a,θ
i
)为第i个在线评论家网络的Q值,其中,K为目标评论家网络的个数,为第i个目标评论家网络的Q值,为K个目标评论家网络的Q值平均值,
[0023]其中,r(s,a)为立即奖赏,Q
i
(s,a,θ
i
)为第i个在线评论家网络的Q值。
[0024]在其中一个实施例中,
[0025]所述DDPG算法中,通过策略梯度来更新行动者的策略,具体应用以下公式:其中表示策略梯度,N为网络个数,为EMA网络的策略梯度,为策略网络的策略梯度,
[0026]通过EMA网络的Q网络和评论家网络里的目标Q网络合作来更新目标网络的参数,具体应用以下公式:θ
μ



μ
+(1-q)θ
μ

,其中,θ
EMA
为EMA网络的权重,为评论家网络的权重,θ
μ
为策略网络的权重,m,n,q都是0到1之间的浮点数。
[0027]一种基于强化学习的制冷机组控制方法,
[0028]首先,采集建筑物的环境数据,
[0029]然后,根据所述环境数据建立环境模型,根据所述环境模型并通过DDPG算法求解最优控制策略。
[0030]在其中一个实施例中,
[0031]所述DDPG算法中,通过策略梯度来更新行动者的策略,具体应用以下公式:其中表示策略梯度,N为网络个数,为EMA网络的策略梯度,为策略网络的策本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的制冷机组控制装置,其特征在于,包括数据采集模块和数据处理模块,所述数据采集模块用于获取环境数据,所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。2.根据权利要求1所述的基于强化学习的制冷机组控制装置,其特征在于,所述根据所述数据建立环境模型,包括:将制冷机组控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数:状态:用s表示,设t时刻,总能耗为P
q
,冷冻水出水温度为T
o
、冷却水进水温度为T
i
、冷冻泵的出水口的冷冻水流量为V0、冷却泵的出水口的冷却水流量为V
i
,则此时刻的状态可表示为:S
t
=(P
q
,T
o
,T
i
,V
o
,V
i
),其中,冷冻水出水温度T
o
的限制范围为:5≤T
o
≤12,冷却水进水温度T
i
的限制范围为:22≤T
i
≤33,冷冻泵的冷冻水流量V0的限制范围为:63≤V
o
≤105,冷却泵的冷却水流量V
i
的限制范围为:75≤V
i
≤125,动作,用a表示,t时刻的动作a用[设置冷冻泵,设置冷却泵,设置制冷压缩机]表示,其中,设置冷冻泵用O
d
表示,设置冷却泵用O
q
表示,设置制冷压缩机用O
y
表示,则t时刻可采取的动作集合为:a={[O
d0
,O
q0
,O
y0
],[O
d1
,O
q1
,O
y1
],[O
d2
,O
q2
,O
y2
],...},立即奖赏函数,用r表示,其中,若t时刻采用动作a后,冷冻水出水温度T
o
在限制范围外,或冷却水进水温度T
i
在限制范围外,或冷冻泵的冷冻水流量V0在限制范围外,或冷却泵的冷却水流量V
i
在限制范围外,则r=-100P
q
,否则,r=-P
q
,建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。3.根据权利要求1所述的基于强化学习的制冷机组控制装置,其特征在于,所述DDPG算法的经验回放池的数量为两个,分别为B1经验回放池和B2经验回放池,具有高TD误差的经验存储在B2经验回放池,其他经验存储在B1经验回放池中,当进行采样时,从B1经验回放池中采样一部分,从B2经验回放池中采样一部分,且从B2经验回放池中采样的概率的初始值为8%到12%,且所述概率随着时间的后移逐渐降低。4.根据权利要求1所述的基于强化学习的制冷机组控制装置,其特征在于,所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络,所述DDPG算法通过以下最小化损失函数来更新每个评论家网络:L
MC

i
)=αL
avg
(θ)+βL
tar

i
)+η(Q
i
(s,a,θ
i
)-Q
avg
(s,a,θ))2,其中,L
MC

i
)为平均评论家的损失函数平均值,α,β和η为权重,α,β和η都是0到1之间的浮点数,α和β加起来等于1,L
avg
(θ)为评论家网络的损失函数平均值,L
tar

i
)为目标评论家网络的损失函数值,
其中,是目标评论家网络的Q值平均值...

【专利技术属性】
技术研发人员:陈建平范晶晶傅启明
申请(专利权)人:苏州科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利