一种基于改进型DQN的室内热舒适控制方法及系统技术方案

技术编号:32130827 阅读:22 留言:0更新日期:2022-01-29 19:29
本发明专利技术公开了一种基于改进型DQN的室内热舒适控制方法及系统,实时采集影响室内热舒适指标PMV的物理环境指标值;利用物理环境指标值建立室内热舒适状态模型;将室内热舒适状态模型经过控制策略判断得到空调系统判断动作,利用空调系统动作空间进行动作,得到某时刻的室内热舒适状态并和对应时刻的空调系统动作进行映射,将环境中感知到的状态映射为单独的数值作为奖赏函数;在基于双经验池优先经验回放的DQN控制策略的深度强化学习网络中根据奖赏函数确定奖赏值,按照优先级的大小比例进行抽取训练,将训练达到最大迭代次数对应的最优空调系统动作与空调系统动作空间进行联动控制,实现室内热舒适控制。本发明专利技术使室内热舒适水平得到显著提升。水平得到显著提升。水平得到显著提升。

【技术实现步骤摘要】
一种基于改进型DQN的室内热舒适控制方法及系统


[0001]本专利技术属于
,具体涉及一种基于改进型DQN的室内热舒适控制方法及系统。

技术介绍

[0002]以室内空气温度为控制目标的传统定温控制策略为当前的大多数空调系统所采用,低成本、高可靠是其最大优点。但这种单纯地定温控制策略(主要以温度为其控制参数,部分系统会以相对湿度为辅助控制参数)在今天越来越难以匹配大家对室内环境的舒适性追求,所以其存在改善空间。如:当室内温度和室内相对湿度的其他几个因素变化较大时,室内人体热舒适度也会出现较大变化。此时,房间内的用户往往会在热应激反应和滞后性控制效果的双重作用下,过分调高或调低HVAC系统的设定温度,不仅难以达到满意的室内热环境,也会导致系统能耗的增加。
[0003]热舒适度指标PMV是由丹麦科学家Fanger教授于20世纪70年代提出的用于表征人体热反应的评价指标。在范格尔教授的PMV评价体系中,影响人体热舒适度的除了相对湿度、温度、空气流速、平均辐射温度这四个客观因素外,人体服装热阻和人体新陈代谢率这两个主观因素也扮演着非常重要的角色。但传统的基于温度的HVAC控制策略只考虑了室内空气温度和室内相对湿度两个因素,而忽略了其他四个因素。在这种控制策略下,HVAC系统维持的并非用户真实所需的热舒适状态。
[0004]同时PMV指标也是当前国际上应用范围最广、认可度最高的热舒适评价指标。它与多种环境变量和人体参数等有着复杂的非线性关系,无法直接控制。而以BP神经网络为核心工具的PMV预测方法极为耗时,且精度不高。以生成对抗网络GAN为核心工具的PMV预测方法,针对原始GAN中存在的初始粒子自由度过高导致算法收敛较慢的问题。
[0005]深度Q网络(DQN)是由Google的Deep

mind团队提出的一种将深度学习与强化学习结合起来的非线性值函数近似方法。该方法近年来在大规模强化学习问题中展现了超强的性能。基于深度强化学习(DRL)与蒙特卡洛树搜索的围棋人工智能(AlphaGo Zero)甚至轻易击败了人类的顶尖职业棋手。
[0006]在DQN中的每个训练时间步(设定的时间间隔),智能体将在线得到的转移序列存入回放记忆池中。然后用于更新模型权重的数量固定的转移样本被将从记忆池中随机抽取。显而易见的是这种经验回放机制(依赖于从记忆池随机抽取转移样本)仍然存在一定的弊端。随机抽样模式忽略了记忆池中不同样本之间对智能体学习过程中促进作用的大小。也就是说随机抽样模式不能将对智能体学习有较大促进作用的转移样本进行优先学习和优先利用。并且计算机的存储空间也是有限的,一些新样本未能被及时利用的话存在被覆盖的可能性,造成样本浪费。

技术实现思路

[0007]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于改进
型DQN的室内热舒适控制方法及系统,不需要过多先验知识,能够有效适用于非本专业的操作人员,同时使室内热舒适水平得到显著提升。
[0008]本专利技术采用以下技术方案:
[0009]一种基于改进型DQN的室内热舒适控制方法,包括以下步骤:
[0010]S1、建立环境感知模型,实时采集影响室内热舒适指标PMV的物理环境指标值;
[0011]S2、设计空调系统动作空间;
[0012]S3、利用步骤S1获取的物理环境指标值表示建筑模型内的室内热舒适状态,建立室内热舒适状态模型;
[0013]S4、设计基于双经验池优先经验回放的DQN控制策略;
[0014]S5、将步骤S3建立的室内热舒适状态模型经过步骤S4设计的DQN控制策略判断得到空调系统判断动作,利用步骤S2设计的空调系统动作空间进行动作,得到某时刻的室内热舒适状态并和对应时刻的空调系统动作进行映射,将环境中感知到的状态映射为单独的数值作为奖赏函数;根据奖赏函数确定奖赏值,按照优先级的大小比例进行抽取训练,将训练达到最大迭代次数对应的最优空调系统动作与空调系统动作空间进行联动控制,实现室内热舒适控制。
[0015]具体的,步骤S1中,物理环境指标值包括室内温度、室内相对湿度、室内风速和室内黑球温度。
[0016]具体的,步骤S2中,空调系统在时间t采取的动作A
t
为:
[0017]A
t

§
(S
t
)
[0018]其中,
§
是热舒适控制的控制策略,S
t
为室内热舒适状态模型中的一种室内热舒适状态。
[0019]具体的,步骤S3中,室内热舒适状态模型中的一种室内热舒适状态S
t
为:
[0020]S
t
=(T
in
,H
in
,V
in
,Tmr
in
)
[0021]其中,T
in
为室内温度,H
in
为室内相对湿度,V
in
为室内风速,Tmr
in
为室内黑球温度。
[0022]具体的,步骤S4中,基于双经验池优先经验回放的DQN控制策略具体为:
[0023]根据实际回报的大小将学习经验依次存储于两个不同的经验池,采用优先经验回放方法,按照优先级从记忆池的转移序列中抽取转移样本;在转移序列中同时记录每个样本在智能体训练过程中被使用的次数N
i
,当第i个样本被选择后,样本被选中概率随时间步降低。
[0024]进一步的,两个不同的经验池中,带有正奖励的转移序列被存放于回放记忆池D1;带有负奖励及零奖励的转移序列被存放于回放经验池D2;当时间步为非10的整数倍时,从回放记忆池D1中抽取转移样本;当时间步为10的整数倍时,采用随机抽取的方式从回放经验池D2中抽选转移样本。
[0025]进一步的,第j个样本被选中的概率p
j
为:
[0026][0027]其中,N
i
表示第i个样本累计被选中的次数;r
i
为第i个样本的奖赏值。
[0028]具体的,步骤S5中,奖赏函数R
t
为:
[0029]R
t
=(S
t
,A
t
)
[0030]其中,S
t
为室内热舒适状态模型,A
t
为空调系统动作空间。
[0031]本专利技术的另一技术方案是,一种基于改进型DQN的室内热舒适控制系统,包括:
[0032]采集模块,建立环境感知模型,实时采集影响室内热舒适指标PMV的物理环境指标值;
[0033]动作模块,设计空调系统动作空间;
[0034]舒适度模块,利用采集模块获取的物理环境指标值表示建筑模型内的室内热舒适状态,建立室内热舒适状态模型;
[0035]DQN模块,设计基于双经验池优先经验回放的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进型DQN的室内热舒适控制方法,其特征在于,包括以下步骤:S1、建立环境感知模型,实时采集影响室内热舒适指标PMV的物理环境指标值;S2、设计空调系统动作空间;S3、利用步骤S1获取的物理环境指标值表示建筑模型内的室内热舒适状态,建立室内热舒适状态模型;S4、设计基于双经验池优先经验回放的DQN控制策略;S5、将步骤S3建立的室内热舒适状态模型经过步骤S4设计的DQN控制策略判断得到空调系统判断动作,利用步骤S2设计的空调系统动作空间进行动作,得到某时刻的室内热舒适状态并和对应时刻的空调系统动作进行映射,将环境中感知到的状态映射为单独的数值作为奖赏函数;根据奖赏函数确定奖赏值,按照优先级的大小比例进行抽取训练,将训练达到最大迭代次数对应的最优空调系统动作与空调系统动作空间进行联动控制,实现室内热舒适控制。2.根据权利要求1所述的方法,其特征在于,步骤S1中,物理环境指标值包括室内温度、室内相对湿度、室内风速和室内黑球温度。3.根据权利要求1所述的方法,其特征在于,步骤S2中,空调系统在时间t采取的动作A
t
为:A
t

§
(S
t
)其中,
§
是热舒适控制的控制策略,S
t
为室内热舒适状态模型中的一种室内热舒适状态。4.根据权利要求1所述的方法,其特征在于,步骤S3中,室内热舒适状态模型中的一种室内热舒适状态S
t
为:S
t
=(T
in
,H
in
,V
in
,Tmr
in
)其中,T
in
为室内温度,H
in
为室内相对湿度,V
in
为室内风速,Tmr
in
为室内黑球温度。5.根据权利要求1所述的方法,其特征在于,步骤S4中,基于双经验池优先经验回放的DQN控制策略具体为:根据实际回报的大小将...

【专利技术属性】
技术研发人员:闫秀英肖桂波赵旭蒙吉星星
申请(专利权)人:西安建筑科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1