基于强化学习的空调控制方法技术

技术编号:39823656 阅读:23 留言:0更新日期:2023-12-22 19:44
本发明专利技术公开了一种基于强化学习的空调控制方法

【技术实现步骤摘要】
基于强化学习的空调控制方法、装置、空调及存储介质


[0001]本专利技术涉及空调
,尤其涉及一种基于强化学习的空调控制方法

装置

空调及存储介质


技术介绍

[0002]随着空调等技术的发展,用户对普适性的舒适生活的需求越来越迫切

空调对温度

扫风方向和风速的控制能够影响到用户体验

而大多数空调往往是在用户设定空调参数后,空调按照固定模式输出对应的温度和风速控制,其无法根据当前状态进行调整

[0003]现有空调控制方法为基于模型的全局控制方法,该种空调控制方法研究发展相对比较成熟,但是其实际应用也存在一些问题

首先,模型建立与模型校验较为耗时耗力,阻碍了其在实际工程项目中的应用

其次,该种方法所求解得出的控制策略好坏严重依赖于模型质量,一旦模型与建筑或空调系统真实情况存在偏差,控制策略质量将无法得到保障


技术实现思路

[0004]本专利技术实施例提供了一种基于强化学习的空调控制方法

装置

空调及存储介质,实现无需构建数学模型,提高空调控制的精准度

[0005]第一方面,本专利技术实施例提供了一种基于强化学习的空调控制方法,其包括:
[0006]基于预设规则收集空调运行时的初始样本;
[0007]基于所述初始样本对值函数逼近器进行更新,得到初始值函数逼近器,其中,所述值函数逼近器是基于强化学习训练的最优动作价值函数逼近器;
[0008]获取当前状态量,并根据所述当前状态量对所述初始值函数逼近器进行更新,得到目标值函数逼近器;
[0009]基于所述目标值函数逼近器控制所述空调

[0010]第二方面,本专利技术实施例提供了一种基于强化学习的空调控制装置,其包括:
[0011]初始样本收集单元,用于基于预设规则收集空调运行时的初始样本,其中,所述值函数逼近器是基于强化学习训练的最优动作价值函数逼近器;
[0012]第一更新单元,用于基于所述初始样本对值函数逼近器进行更新,得到初始值函数逼近器;
[0013]第二更新单元,用于获取当前状态量,并根据所述当前状态量对所述初始值函数逼近器进行更新,得到目标值函数逼近器;
[0014]空调控制单元,用于基于所述目标值函数逼近器控制所述空调

[0015]第三方面,本专利技术实施例提供了一种空调,其包括存储器

处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于强化学习的空调控制方法

[0016]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述
第一方面所述的基于强化学习的空调控制方法

[0017]本专利技术实施例提供了一种基于强化学习的空调控制方法

装置

空调及存储介质,该方法包括:基于预设规则收集空调运行时的初始样本;基于所述初始样本对值函数逼近器进行更新,得到初始值函数逼近器;获取当前状态量,并根据所述当前状态量对所述初始值函数逼近器进行更新,得到目标值函数逼近器;基于所述目标值函数逼近器控制所述空调

本专利技术实施例基于初始样本对值函数逼近器进行更新,并获取当前状态量,再次对值函数逼近器进行更新,以对空调进行控制,其实现了无需训练模型来进行空调控制,能够基于当前状态量进行空调控制,有利于提高空调控制的精准度

附图说明
[0018]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0019]图1为本专利技术实施例提供的基于强化学习的空调控制方法的流程示意图;
[0020]图2为本专利技术实施例提供的基于强化学习的空调控制方法的子流程示意图;
[0021]图3为本专利技术实施例提供的基于强化学习的空调控制方法的子流程示意图;
[0022]图4为本专利技术实施例提供的基于强化学习的空调控制方法的子流程示意图;
[0023]图5为本专利技术实施例提供的基于强化学习的空调控制方法的子流程示意图;
[0024]图6为本专利技术实施例提供的基于强化学习的空调控制方法的子流程示意图;
[0025]图7为本专利技术实施例提供的基于强化学习的空调控制装置的示意性框图;
[0026]图8为本专利技术实施例提供的空调的示意性框图

具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0028]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征

整体

步骤

操作

元素和
/
或组件的存在,但并不排除一个或多个其它特征

整体

步骤

操作

元素

组件和
/
或其集合的存在或添加

[0029]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术

如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式

[0030]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和
/
或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合

[0031]请参阅图1,图1为本专利技术实施例提供的基于强化学习的空调控制方法的流程示意图

本专利技术实施例提供的基于强化学习的空调控制方法,应用于空调中

[0032]S1、
基于预设规则收集空调运行时的初始样本

[0033]本申请实施例中,为了保证空调系统的稳定运行,本申请实施例采用基于规则的
控制方法进行样本收集

本申请在实施例步骤
S1
之前会预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习的空调控制方法,其特征在于,包括:基于预设规则收集空调运行时的初始样本;基于所述初始样本对值函数逼近器进行更新,得到初始值函数逼近器,其中,所述值函数逼近器是基于强化学习训练的最优动作价值函数逼近器;获取当前状态量,并根据所述当前状态量对所述初始值函数逼近器进行更新,得到目标值函数逼近器;基于所述目标值函数逼近器控制所述空调
。2.
根据权利要求1所述的基于强化学习的空调控制方法,其特征在于,所述基于所述初始样本对值函数逼近器进行更新,得到初始值函数逼近器,包括:根据所述初始样本对所述初始值函数逼近器进行初始化处理,并获取第一当前状态量;计算所述第一当前状态量下的不同动作的价值,得到初始估计值,并根据所述初始估计值确定初始动作;控制所述空调执行所述初始动作,以使得所述空调到达所述初始动作对应的室内设定值;当到达下一决策时刻,获取下一决策时刻的状态量和奖励值,并将所述初始动作

所述第一当前状态量以及所述下一决策时刻的状态量和奖励值存入经验集合中;判断是否达到所述值函数逼近器的更新条件;若达到所述更新条件,则基于所述经验集合对所述值函数逼近器进行更新,得到所述初始值函数逼近器
。3.
根据权利要求2所述的基于强化学习的空调控制方法,其特征在于,所述判断是否达到所述值函数逼近器的更新条件之后,所述方法还包括:若未达到所述更新条件,则将所述下一决策时刻的状态量赋值于所述第一当前状态量,生成初始状态量,其中,初始状态量包括室内温度

风机转速和扫风风向;基于所述初始状态量重新控制所述空调执行所述初始状态量对应的动作,并重新生成新的经验集合;当达到所述更新条件时,基于所述新的经验集合对所述值函数逼近器进行更新,得到所述初始值函数逼近器
。4.
根据权利要求2所述的基于强化学习的空调控制方法,其特征在于,所述计算所述第一当前状态量下的不同动作的价值,得到初始估计值,并根据所述初始估计值确定初始动作,包括:在每个时间步长中,通过所述值函数逼近器计算所述第一当前状态量下不同的动作的价值,得到初始估计值;根据预设探索策略获取最大初始估计值对应的动作,得到所述初始动作
。5.
根据权利要求1所述的基于强化学习的空调控制方法,其特征在于,所述获取当前状态量,并根据所述当前状态量对所述初始值函数逼近器进行更新,得到目标值函数逼近器,包括:获取当前状态量,计算所述当前状态量下所有可选动作的价值;根据预设探索策略获取所有可选动作中价值最高的目标动作,并获取所述目标动作对
应的室内温度设定...

【专利技术属性】
技术研发人员:张裕松王子李保水毛跃辉魏贤
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1