【技术实现步骤摘要】
基于强化学习的空调控制方法、装置、空调及存储介质
[0001]本专利技术涉及空调
,尤其涉及一种基于强化学习的空调控制方法
、
装置
、
空调及存储介质
。
技术介绍
[0002]随着空调等技术的发展,用户对普适性的舒适生活的需求越来越迫切
。
空调对温度
、
扫风方向和风速的控制能够影响到用户体验
。
而大多数空调往往是在用户设定空调参数后,空调按照固定模式输出对应的温度和风速控制,其无法根据当前状态进行调整
。
[0003]现有空调控制方法为基于模型的全局控制方法,该种空调控制方法研究发展相对比较成熟,但是其实际应用也存在一些问题
。
首先,模型建立与模型校验较为耗时耗力,阻碍了其在实际工程项目中的应用
。
其次,该种方法所求解得出的控制策略好坏严重依赖于模型质量,一旦模型与建筑或空调系统真实情况存在偏差,控制策略质量将无法得到保障
。
技术实现思路
[0004]本专利技术实施例提供了一种基于强化学习的空调控制方法
、
装置
、
空调及存储介质,实现无需构建数学模型,提高空调控制的精准度
。
[0005]第一方面,本专利技术实施例提供了一种基于强化学习的空调控制方法,其包括:
[0006]基于预设规则收集空调运行时的初始样本;
[0007]基于所述初始样本对值函数逼近器进行更新,得到初始 ...
【技术保护点】
【技术特征摘要】
1.
一种基于强化学习的空调控制方法,其特征在于,包括:基于预设规则收集空调运行时的初始样本;基于所述初始样本对值函数逼近器进行更新,得到初始值函数逼近器,其中,所述值函数逼近器是基于强化学习训练的最优动作价值函数逼近器;获取当前状态量,并根据所述当前状态量对所述初始值函数逼近器进行更新,得到目标值函数逼近器;基于所述目标值函数逼近器控制所述空调
。2.
根据权利要求1所述的基于强化学习的空调控制方法,其特征在于,所述基于所述初始样本对值函数逼近器进行更新,得到初始值函数逼近器,包括:根据所述初始样本对所述初始值函数逼近器进行初始化处理,并获取第一当前状态量;计算所述第一当前状态量下的不同动作的价值,得到初始估计值,并根据所述初始估计值确定初始动作;控制所述空调执行所述初始动作,以使得所述空调到达所述初始动作对应的室内设定值;当到达下一决策时刻,获取下一决策时刻的状态量和奖励值,并将所述初始动作
、
所述第一当前状态量以及所述下一决策时刻的状态量和奖励值存入经验集合中;判断是否达到所述值函数逼近器的更新条件;若达到所述更新条件,则基于所述经验集合对所述值函数逼近器进行更新,得到所述初始值函数逼近器
。3.
根据权利要求2所述的基于强化学习的空调控制方法,其特征在于,所述判断是否达到所述值函数逼近器的更新条件之后,所述方法还包括:若未达到所述更新条件,则将所述下一决策时刻的状态量赋值于所述第一当前状态量,生成初始状态量,其中,初始状态量包括室内温度
、
风机转速和扫风风向;基于所述初始状态量重新控制所述空调执行所述初始状态量对应的动作,并重新生成新的经验集合;当达到所述更新条件时,基于所述新的经验集合对所述值函数逼近器进行更新,得到所述初始值函数逼近器
。4.
根据权利要求2所述的基于强化学习的空调控制方法,其特征在于,所述计算所述第一当前状态量下的不同动作的价值,得到初始估计值,并根据所述初始估计值确定初始动作,包括:在每个时间步长中,通过所述值函数逼近器计算所述第一当前状态量下不同的动作的价值,得到初始估计值;根据预设探索策略获取最大初始估计值对应的动作,得到所述初始动作
。5.
根据权利要求1所述的基于强化学习的空调控制方法,其特征在于,所述获取当前状态量,并根据所述当前状态量对所述初始值函数逼近器进行更新,得到目标值函数逼近器,包括:获取当前状态量,计算所述当前状态量下所有可选动作的价值;根据预设探索策略获取所有可选动作中价值最高的目标动作,并获取所述目标动作对
应的室内温度设定...
【专利技术属性】
技术研发人员:张裕松,王子,李保水,毛跃辉,魏贤,
申请(专利权)人:珠海格力电器股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。