基于支持向量机和深度强化学习的建筑空调温度控制方法技术

技术编号:37615173 阅读:9 留言:0更新日期:2023-05-18 12:06
本发明专利技术涉及基于支持向量机和深度强化学习的建筑空调温度控制方法,包括:分析确定影响空调温度控制效果的影响因素;采集建筑空调温控的样本数据;采用支持向量机,建立建筑空调最佳设定温度的预测模型,并求解得到各种不同情形下的空调最优控制温度;将建筑空调温度控制过程分解为温控控制过程的前、后时刻的状态迁移,针对当前状态设定空调温度即为当前状态的动作,利用深度Q网络得到动作价值;根据深度Q网络得到的最大动作价值的动作,利用空调对建筑室内温度进行实时调控。本发明专利技术实现了空调最优控制温度的求解与根据用户体验反馈情况的反馈控制过程分解,提高了建筑空调温度控制的灵活性,便于基于用户反馈进行实时调整,提高了用户体验度。提高了用户体验度。提高了用户体验度。

【技术实现步骤摘要】
基于支持向量机和深度强化学习的建筑空调温度控制方法


[0001]本专利技术属于建筑智能控制领域,具体涉及一种基于支持向量机和深度强化学习的建筑空调温度控制方法。

技术介绍

[0002]目前,大型建筑的室内温度的智能控制方法通常考虑用户舒适度等用户体验反馈情况,并作为室内最优温度求解模型的影响因素之一,如公开号为CN115574440A的中国专利技术申请“基于监控视频数据的高校教学楼暖通空调智能调控方法”先确定基于学生群体平均热舒适度的室内最佳温度后,进行教室暖通空调实时智能调控。然而,用户舒适度等用户体验反馈具有实时性,且室内最佳温度的最优化模型通常具有较高复杂度,实时求解室内最佳温度的最优化模型具有难度。因此,现有技术的将用户舒适度等用户反馈的控制与室内最佳温度的求解混为一谈的温度控制方法影响了实时性,不能实时的根据用户反馈对温度控制过程进行即时调整,限制了用户体验度的提高。
[0003]强化学习(Reinforcement Learning,RL),通过智能体(Agent)与动态、未知环境交互,并获得最大回报的一类在线学习方法,强化学习中的Q

Learning方法通过借助采样得到的数据进行策略评估与策略改进,从而使得智能体学到最佳策略,但Q

Learning基于查询表更新值,计算复杂度会随着状态空间的维度增加而增大。因此考虑引入神经网络来摆脱维度灾问题。深度学习具有较强的感知能力,但是缺乏一定的决策能力。而强化学习具有决策能力,但对感知问题没有太好的效果。
[0004]因此,本专利技术将深度学习与强化学习相结合,有利于解决复杂系统的感知决策问题。

技术实现思路

[0005]本专利技术的技术问题是现有的建筑温度调控方法将建筑的最优控制温度的求解和用户对建筑温度调控效果反应等温度控制效果的反馈影响混在一起,缺乏合理性;强化学习的Q

Learning基于查询表更新值,计算复杂度会随着状态空间的维度增加而增大,对复杂系统存在维度灾的问题。
[0006]本专利技术的目的是解决上述问题,提供一种基于支持向量机和深度强化学习的建筑空调温度控制方法,利用支持向量机求解得到建筑空调最佳设定温度即空调最优控制温度;并利用深度Q网络(Deep Q

network,DQN)建模得到建筑温度控制的奖励函数,得到当前状态下动作价值最大的空调设定动作,将空调最优控制温度的求解以及反应用户体验等多影响因素的空调设定动作的动作价值的计算过程分离成两步,以便于对反应用户体验的动作价值能进行实时的更新和计算,实现高体验度的建筑室内温度的最优化控制。
[0007]本专利技术的技术方案是基于支持向量机和深度强化学习的建筑空调温度控制方法,包括以下步骤:
[0008]步骤1:分析确定影响空调温度控制效果的影响因素;
[0009]步骤2:根据空调温控的影响因素,采集建筑空调温控的样本数据;
[0010]步骤3:采用支持向量机,建立建筑空调最佳设定温度即空调最优控制温度的预测模型,并求解得到各种不同的建筑室内温度调控情形下的空调最优控制温度;
[0011]步骤3.1:利用支持向量机寻找超平面,对建筑空调温控的样本数据进行分割,分割的原则是使超平面分割后的样本集合的间隔最大化;
[0012]步骤3.2:采取核函数法,将建筑空调温控的样本数据从原始空间映射到高维空间,使得样本在高维空间中线性可分;
[0013]步骤3.3:将空调最优控制温度的求解问题作为多分类问题求解,设针对各种不同的建筑室内温度调控情形总共有M个空调最优控制温度,则需要利用支持向量机进行M

1次分类,即进行M

1次求解n维最优化问题,n表示空调温度控制样本参数的维度;
[0014]步骤4:建立建筑空调温度控制过程的状态空间,将建筑空调温度控制过程分解为温控控制过程的前、后时刻的状态迁移,针对当前状态设定空调温度即为当前状态的动作,并对不同时刻的状态下采取的动作建立奖励函数即动作价值,利用神经网络得到动作价值,训练得到最优的神经网络的权重及偏置参数,最大化奖励函数;
[0015]步骤5:采用步骤4得到的状态空间和动作的奖励函数,结合步骤3得到的各种不同的建筑室内温度调控情形下的空调最优控制温度,启动空调,对建筑室内温度进行实时调控。
[0016]优选地,步骤4中,针对预测得到的空调最优控制温度用于建筑室内温度调节的实时效果设置奖励函数,所述奖励函数满足以下奖励规则:
[0017]1)实时室温与当前预测得到的空调最优控制温度相等,则用户满意度为百分之百满意,奖励函数的奖励值为R
100
,R
100
表示用户百分之百满意的奖励值;
[0018]2)若有人为调整空调设定温度的现象发生,则用户不满意当前的空调设定温度即空调最优控制温度,每调低/调高0.5℃,对应的奖励函数的奖励值为Rp,Rp表示用户调低/调高0.5℃空调设定温度对应的奖励函数的奖励值,Rp<0;
[0019]3)节能原则,奖励函数与空调能耗成反比,能耗越大奖励函数值越低。
[0020]步骤4中,采用深度Q网络求解价值函数,得到当前状态下采取的空调设置动作的动作价值,所述深度Q网络包括用于逼近奖励函数的当前动作值网络以及用于产生目标的目标值网络,当前动作值网络与目标值网络的网络结构相同,当前动作值网络的网络参数每步都更新,而目标值网络的网络参数每隔固定的周期更新一次,期间保持不变;
[0021]当前动作值以及目标值的表达式如下:
[0022]Q
predict
=Q(s,a;θ
t )
[0023][0024]式中Q
predict
表示当前动作值,Q
target
表示目标值;Q(s,a;θt
t
)表示DQN的当前动作值网络/目标值网络表示的奖励函数,s、s
′ꢀ
分别表示当前时刻、下一时刻的状态,a、a

分别表示当前时刻、下一时刻的动作;θ
t
、θ
t+1
分别表示t时刻、t+1时刻DQN的当前动作值网络的网络参数;r表示执行动作后的回报,γ表示折扣系数;
[0025]误差函数的计算式如下:
[0026][0027]当前动作值网络的网络参数更新的计算式如下:
[0028][0029]式中β为影响系数;表示动作值的梯度。
[0030]优选地,空调对建筑室内温度调控时采用ε贪心策略选择执行深度Q网络得到的动作值最大的动作,即以1

ε的概率执行深度Q网络的当前动作值网络得到的动作值最大的动作,以概率ε执行其它动作。
[0031]优选地,基于支持向量机和深度强化学习的建筑空调温度控制方法定期收集建筑空调的室内温度控制过程的样本参数,作为新的训练样本,对所述空调最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于支持向量机和深度强化学习的建筑空调温度控制方法,其特征在于,包括以下步骤:步骤1:分析确定影响空调温度控制效果的影响因素;步骤2:根据空调温控的影响因素,采集建筑空调温控的样本数据;步骤3:采用支持向量机,建立建筑空调最佳设定温度即空调最优控制温度的预测模型,并求解得到各种不同的建筑室内温度调控情形下的空调最优控制温度;步骤3.1:利用支持向量机寻找超平面,对建筑空调温控的样本数据进行分割,分割的原则是使超平面分割后的样本集合的间隔最大化;步骤3.2:采取核函数法,将建筑空调温控的样本数据从原始空间映射到高维空间,使得样本在高维空间中线性可分;步骤3.3:将空调最优控制温度的求解问题作为多分类问题求解,设针对各种不同的建筑室内温度调控情形总共有M个空调最优控制温度,则需要利用支持向量机进行M

1次分类,即进行M

1次求解n维最优化问题,n表示空调温度控制样本参数的维度;步骤4:建立建筑空调温度控制过程的状态空间,将建筑空调温度控制过程分解为温控控制过程的前、后时刻的状态迁移,针对当前状态设定空调温度即为当前状态的动作,并对不同时刻的状态下采取的动作建立奖励函数即动作价值,利用神经网络建模得到动作价值,训练得到最优的神经网络的权重及偏置参数,最大化奖励函数;步骤5:采用步骤4得到的状态空间和动作的奖励函数,结合步骤3得到的各种不同的建筑室内温度调控情形下的空调最优控制温度,启动空调,对建筑室内温度进行实时调控。2.根据权利要求1所述的建筑空调温度控制方法,其特征在于,步骤3.2中,核函数计算式如下:K(x,x')=<φ(x),φ(x')>式中φ(x)、φ(x')分别表示样本数据x、x'映射到高维空间后的特征向量;K(x,x')表示样本数据x、x'的核函数值。3.根据权利要求2所述的建筑空调温度控制方法,其特征在于,步骤3中,结合步骤3.2引入的核函数,得到最优化模型如下:引入的核函数,得到最优化模型如下:0≤α
i
≤Ci=1,

,l式中x
i
代表输入变量,其分量为对应特征及属性,在此代表空调温控的影响因素,y
i
为输出指标,即对应数据所属的类别,l表示样本数,向量α=(α1,α2,


n
)为拉格朗日乘子且α
i
≥0;C为正常量用于对拉格朗日乘子的约束;求解上述二次规划问题,可得最优解α
*
,则有
式中ω
*
,b
*
为所求分类超平面的参数;进一步构造决策函数,实现输入样本的分类,f(x)=sgn(ω
*
x+b
*
)式中f(x)表示决策函数,sgn()为符号函数,输出样本的类别。4.根据权利要求3所述的建筑空调温度控制方法,其特征在于,步骤4中,针对预测得到的...

【专利技术属性】
技术研发人员:赵璐许磊磊殷超孙浩黎晖彭杰涛李坤龚清张志鹏刘文洲程亮刘艳汤立坤陈科付茂源李明翔马朝科吕建国
申请(专利权)人:中交武汉智行国际工程咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1