一种空调控制方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25475925 阅读:25 留言:0更新日期:2020-09-01 22:58
本发明专利技术公开了一种空调控制方法、装置、电子设备及存储介质,该空调控制方法包括:空调获取包含用户的行为状态的图像;将所述图像输入到预先训练完成的模式识别模型中,确定当前的第一控制模式;获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型,根据当前运行环境的第一温度及所述动作网络模型,确定控制所述空调的第一控制参数;根据所述第一控制参数,控制所述空调,从而实现了空调的多模式控制,可以更好的满足用户的需求,降低空调的能耗。

【技术实现步骤摘要】
一种空调控制方法、装置、电子设备及存储介质
本专利技术涉及空调
,尤其涉及一种空调控制方法、装置、电子设备及存储介质。
技术介绍
随着人们生活水平的提高,空调已成为越来越多家庭必备的家电之一,但是,空调耗电量大,成为消费者和生产厂家较为头疼的问题。现有空调的控制方法主要以室内温度调控为主,而且由于空调的运行环境较为复杂,传统空调的节能控制逻辑较为简单,能量消耗大,并且控制模式单一,处理数据能力较弱,不能够满足用户的需求。
技术实现思路
本专利技术实施例提供了一种空调控制方法、装置、电子设备及存储介质,用以解决现有技术中传统空调的能量消耗大,并且控制模式单一,不能够满足用户需求的问题。本专利技术实施例提供了一种空调控制方法,所述方法包括:空调获取包含用户的行为状态的图像;将所述图像输入到预先训练完成的模式识别模型中,确定当前的第一控制模式;获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型,根据当前运行环境的第一温度及所述动作网络模型,确定控制所述空调的第一控制参数;根据所述第一控制参数,控制所述空调。进一步地,所述获取包含用户的图像包括:根据采集到的雷达波,获得微多普勒特征时频图。进一步地,所述模式识别模型的训练过程包括:获取第一训练样本集中每个第一训练样本,其中每个第一训练样本为微多普勒特征时频图,并且每个第一训练样本中包括该第一训练样本对应的第二控制模式的标识信息;将每个第一训练样本输入到模式识别模型中,根据所述模式识别模型输出的第三控制模式,对所述模式识别模型进行训练。进一步地,所述DDPG模型的训练过程包括:针对每个控制模式,获取第二训练样本集中的每个第二训练样本,其中所述每个第二训练样本中包含有运行环境的第二温度,下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值;针对每个第二训练样本,将该第二训练样本中的运行环境的第二温度输入到动作现实网络Actor-eval-net模型,获取所述Actor-eval-net模型输出的第二控制参数;将所述运行环境的第二温度及第二控制参数输入到状态现实网络Critic-eval-net模型,获取所述Critic-eval-net模型输出的第一动作状态值;将所述运行环境的第三温度输入到动作估计网络Actor-target-net模型中,获取所述Actor-eval-net模型输出的第三控制参数;将所述运行环境的第三温度及所述第三控制参数输入到状态估计网络Critic-target-net模型中,获取所述Critic-target-net模型输出的第二动作状态值;根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数,根据第一误差参数对Critic-eval-net模型中的参数进行更新;根据更新后的Critic-eval-net模型中的参数,对Critic-target-net模型中的参数进行更新;根据每个第二训练样本对应的第一动作状态值及第二控制参数的值,确定第二误差参数,根据第二误差参数对Actor-eval-net模型中的参数进行更新;根据更新后的Actor-eval-net模型中的参数,对Actor-target-net模型中的参数进行更新。进一步地,所述根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数包括:根据公式确定所述第一误差参数,其中,Loss表示所述第一误差参数,N表示第二训练样本集中第二训练样本的总数量,Rt+1表示第t+1个第二训练样本的奖励值,Q’t表示第t个第二训练样本的第二动作状态值,γ为预先设置的权重值,Q′t表示第t个第二训练样本的第一动作状态值,γ为大于等于0小于等于1的数值。进一步地,所述根据每个第二训练样本对应的第一动作状态值及第二控制参数的值,确定第二误差参数包括:根据公式确定所述第二误差参数,其中,J表示所述第二误差参数,N表示第二训练样本集中第二训练样本的总数量,表示第i个第二训练样本的第一动作状态值,表示第i个第二训练样本的第二控制参数的值。进一步地,根据该控制模式预先确定每个第二训练样本中的奖励值包括:根据公式reward=a*Sn+b*Sw+c*W,确定该第二训练样本中的奖励值,其中,reward表示所述奖励值,Sn为室内温差值,a、b、c为预先设置的权重值,Sw为室外温差值,W表示空调的功率,a+b+c=1,其中Sn为所述运行环境的第三温度中的室内温度与该控制模式对应的设定温度的差值,Sw为运行环境的第三温度中的室外温度与运行环境的第二温度中的室外温度的差值。进一步地,所述运行环境的温度包括:空调的内管温度、室内温度和室外温度。本专利技术实施例提供了一种空调控制装置,所述装置包括:获取模块,用于获取包含用户的行为状态的图像;第一确定模块,用于将所述图像输入到预先训练完成的模式识别模型中,确定当前的第一控制模式;第二确定模块,用于获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型,根据当前运行环境的第一温度及所述动作网络模型,确定控制所述空调的第一控制参数;控制模块,用于根据所述第一控制参数,控制所述空调。进一步地,所述获取模块,具体用于根据采集到的雷达波,获得微多普勒特征时频图。进一步地,所述装置还包括:第一训练模块,用于获取第一训练样本集中每个第一训练样本,其中每个第一训练样本为微多普勒特征时频图,并且每个第一训练样本中包括该第一训练样本对应的第二控制模式的标识信息;将每个第一训练样本输入到模式识别模型中,根据所述模式识别模型输出的第三控制模式,对所述模式识别模型进行训练。进一步地,所述装置还包括:第二训练模块,用于针对每个控制模式,获取第二训练样本集中的每个第二训练样本,其中所述每个第二训练样本中包含有运行环境的第二温度,下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值;针对每个第二训练样本,将该第二训练样本中的运行环境的第二温度输入到动作现实网络Actor-eval-net模型,获取所述Actor-eval-net模型输出的第二控制参数;将所述运行环境的第二温度及第二控制参数输入到状态现实网络Critic-eval-net模型,获取所述Critic-eval-net模型输出的第一动作状态值;将所述运行环境的第三温度输入到动作估计网络Actor-target-net模型中,获取所述Actor-eval-net模型输出的第三控制参数;将所述运行环境的第三温度及所述第三控制参数输入到状态估计网络Critic-target-net模型中,获取所述Critic-target-net模型输出的第二动作状态值;根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数,根据第一误差参数对Critic-eval-net模型中的本文档来自技高网...

【技术保护点】
1.一种空调控制方法,其特征在于,所述方法包括:/n空调获取包含用户的行为状态的图像;/n将所述图像输入到预先训练完成的模式识别模型中,确定当前的第一控制模式;/n获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型,根据当前运行环境的第一温度及所述动作网络模型,确定控制所述空调的第一控制参数;/n根据所述第一控制参数,控制所述空调。/n

【技术特征摘要】
1.一种空调控制方法,其特征在于,所述方法包括:
空调获取包含用户的行为状态的图像;
将所述图像输入到预先训练完成的模式识别模型中,确定当前的第一控制模式;
获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型,根据当前运行环境的第一温度及所述动作网络模型,确定控制所述空调的第一控制参数;
根据所述第一控制参数,控制所述空调。


2.如权利要求1所述的方法,其特征在于,所述获取包含用户的图像包括:
根据采集到的雷达波,获得微多普勒特征时频图。


3.如权利要求1所述的方法,其特征在于,所述模式识别模型的训练过程包括:
获取第一训练样本集中每个第一训练样本,其中每个第一训练样本为微多普勒特征时频图,并且每个第一训练样本中包括该第一训练样本对应的第二控制模式的标识信息;
将每个第一训练样本输入到模式识别模型中,根据所述模式识别模型输出的第三控制模式,对所述模式识别模型进行训练。


4.如权利要求1所述的方法,其特征在于,所述DDPG模型的训练过程包括:
针对每个控制模式,获取第二训练样本集中的每个第二训练样本,其中所述每个第二训练样本中包含有运行环境的第二温度,下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值;
针对每个第二训练样本,将该第二训练样本中的运行环境的第二温度输入到动作现实网络Actor-eval-net模型,获取所述Actor-eval-net模型输出的第二控制参数;将所述运行环境的第二温度及第二控制参数输入到状态现实网络Critic-eval-net模型,获取所述Critic-eval-net模型输出的第一动作状态值;将所述运行环境的第三温度输入到动作估计网络Actor-target-net模型中,获取所述Actor-eval-net模型输出的第三控制参数;将所述运行环境的第三温度及所述第三控制参数输入到状态估计网络Critic-target-net模型中,获取所述Critic-target-net模型输出的第二动作状态值;
根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数,根据第一误差参数对Critic-eval-net模型中的参数进行更新;根据更新后的Critic-eval-net模型中的参数,对Critic-target-net模型中的参数进行更新;
根据每个第二训练样本对应的第一动作状态值及第二控制参数的值,确定第二误差参数,根据第二误差参数对Actor-eval-net模型中的参数进行更新;根据更新后的Actor-eval-net模型中的参数,对Actor-target-net模型中的参数进行更新。


5.如权利要求4所述的方法,其特征在于,所述根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数包括:
根据公式确定所述第一误差参数,其中,Loss表示所述第一误差参数,N表示第二训练样本集中第二训练样本的总数量,Rt+1表示第t+1个第二训练样本的奖励值,Q’t表示第t个第二训练样本的第二动作状态值,γ为预先设置的权重值,Qt表示第t个第二训练样本的第一动作状态值,γ为大于等于0小于等于1的数值。


6.如权利要求4所述的方法,其特征在于,所述根据每个第二训练样本对应的第一动作状态值及第二控制参数的值,确定第二误差参数包括:
根据公式确定所述第二误差参数,其中,J表示所述第二误差参数,N表示第二训练样本集中第二训练样本的总数量,表示第i个第二训练样本的第一动作状态值,表示第i个第二训练样本的第二控制参数的值。


7.如权利要求4所述的方法,其特征在于,根据该控制模式预先确定每个第二训练样本中的奖励值包括:
根据公式reward=a*Sn+b*Sw+c*W,确定该第二训练样本中的奖励值,其中,reward表示所述奖励值,Sn为室内温差值,a、b、c为预先设置的权重值,Sw为室外温差值,W表示空调的功率,a+b+c=1,其中Sn为所述运行环境的第三温度中的室内温度与该控制模式对应的设定温度的差值,Sw为运行环境的第三温度中的室外温度与运行环境的第二温度中的室外温度的差值。


8.如权利要求1或4或7所述的方法,其特征在于,所述运行环境的温度包括:
空调的内管温度、室内温度和室外温度。


9.一种空调控制装置,其特征在于,所述装置包括:
获取模块,用于获取包含用户的行为...

【专利技术属性】
技术研发人员:谭建明李绍斌宋德超陈翀罗晓宇岳冬肖文轩邓家璧王鹏飞
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1