温度控制方法、装置及中央温度控制系统制造方法及图纸

技术编号：25475943 阅读：14 留言：0更新日期：2020-09-01 22:58

本发明专利技术实施例提供了一种温度控制方法、装置及中央温度控制系统，涉及温度控制技术领域。其中，上述温度控制方法包括将获得的实时环境数据输入估计网络模型；基于估计网络模型所对应的贪心概率，采用贪心策略从多个学习动作值中选出优选学习动作值；利用优选学习动作值所对应的控制输入量，控制中央温度控制系统进行温度调节。如此，减少不断尝试不同控制输入量所带来的能耗成本和避免产生温度波动。此外，能够确保使用不同精度的估计网络模型都能够最大可能的获得最优的控制输入量，提高中央温度控制系统提供的温度服务质量和用户的使用体验。兼顾节约能效和舒适控温的优点。

全部详细技术资料下载

【技术实现步骤摘要】
温度控制方法、装置及中央温度控制系统
本专利技术涉及温度控制
，具体而言，涉及一种温度控制方法、装置及中央温度控制系统。
技术介绍
中央型温度控制系统是一种控制集中、可为多个独立空间提供温度控制服务的系统。比如，地暖系统、中央空调等。目前控制中央型温度控制系统为所有空间提供温度控制服务，主要基于用户设置的控制参数。而用户配置的控制参数往往不能使中央型温度控制系统提供优质服务，还需用户盲目地常识改变控制参数以探索较佳的控制参数。这一过程不仅耗时耗能，还会造成温度波动，影响用户的使用体验。
技术实现思路
为解决如何兼顾得到最优控制输入量及避免尝试配置控制参数的成本的问题，本专利技术实施例提供了一种温度控制方法、装置及中央温度控制系统。第一方面，本专利技术实施例提供一种温度控制方法，应用于中央温度控制系统，所述中央温度控制系统内存储有训练得到的估计网络模型；所述温度控制方法包括：将获得的实时环境数据输入所述估计网络模型，以的得到多个学习动作值；其中，一个所述学习动作值对应一个用于调节温度的控制输入量；基于所述估计网络模型所对应的贪心概率，采用贪心策略从所述多个学习动作值中选出优选学习动作值；其中，所述贪心概率与所述估计网络模型的迭代次数呈反比；利用所述优选学习动作值所对应的控制输入量，控制所述中央温度控制系统进行温度调节。本方案利用估计网络模型评估在当前的实时环境数据下不同控制输入量所对应的学习动作值，学习动作值一定程度上可以表征控制输入量的优质程度。然后，利用与估计网络模型的迭代次数呈反...

【技术保护点】
1.一种温度控制方法，其特征在于，应用于中央温度控制系统(1)，所述中央温度控制系统(1)内存储有训练得到的估计网络模型；所述温度控制方法包括：/n将获得的实时环境数据输入所述估计网络模型，以的得到多个学习动作值；其中，一个所述学习动作值对应一个用于调节温度的控制输入量；/n基于所述估计网络模型所对应的贪心概率，采用贪心策略从所述多个学习动作值中选出优选学习动作值；其中，所述贪心概率与所述估计网络模型的迭代次数呈反比；/n利用所述优选学习动作值所对应的控制输入量，控制所述中央温度控制系统(1)进行温度调节。/n

【技术特征摘要】
1.一种温度控制方法，其特征在于，应用于中央温度控制系统(1)，所述中央温度控制系统(1)内存储有训练得到的估计网络模型；所述温度控制方法包括：
将获得的实时环境数据输入所述估计网络模型，以的得到多个学习动作值；其中，一个所述学习动作值对应一个用于调节温度的控制输入量；
基于所述估计网络模型所对应的贪心概率，采用贪心策略从所述多个学习动作值中选出优选学习动作值；其中，所述贪心概率与所述估计网络模型的迭代次数呈反比；
利用所述优选学习动作值所对应的控制输入量，控制所述中央温度控制系统(1)进行温度调节。

2.根据权利要求1所述的温度控制方法，其特征在于，所述中央温度控制系统(1)中预先存储有初始估计模型和初始目标模型；所述温度控制方法还包括：
获取所述中央温度控制系统(1)的历史温度调节数据及对应的历史环境数据；
根据所述历史温度调节数据及对应的历史环境数据生成多个样本数据；其中，所述样本数据包括第一环境参数、样本控制输入量、第二环境参数及控制奖励值；所述控制奖励值用于表征样本执行过程的能耗成本及温度控制效果；所述样本执行过程为所述中央温度控制系统(1)执行所述样本控制输入量将实时环境数据从所述第一环境参数调节至所述第二环境参数的过程；
利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练，得到所述估计网络模型，并存储。

3.根据权利要求2所述的温度控制方法，其特征在于，所述利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练的步骤包括：
将所述第一环境参数输入所述初始估计模型，以得到所述样本控制输入量所对应的估计动作值；
将所述第二环境参数输入所述初始目标模型，以得到多个中间动作值；
根据最大的所述中间动作值及所述控制奖励值，计算目标动作值；
根据所述估计动作值与所述目标动作值之间的差异对所述初始估计模型的模型参数进行迭代，以得到所述估计网络模型。

4.根据权利要求3所述的温度控制方法，其特征在于，所述利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练的步骤还包括：
根据迭代后所述初始估计模型的模型参数，更新所述初始目标模型的模型参数。

5.根据权利要求2所述的温度控制方法，其特征在于，所述控制奖励值的生成方式包括：
从所述历史温度调节数据中获取所述样本执行过程产生的所述能耗成本；
从所述第二环境参数中获取所述中央温度控制系统(1)所服务的每一个空间的实际室内温度；
根据所述能耗成本、实际室内温度及预设的舒适温度区间，利用公式：

计算所述控制奖励值；其中，r代表所述控制奖励值；cost(at,st,st+1)代表所述能耗成本，z代表所述中央温度控制系统(1)所服务的空间总数；代表第i个空间的实际室内温度；代表第i个空间所对应的舒适温度区间的上限值；代表第i个空间所对应的舒适温度区间的下限值，λ代表预设的温度控制惩罚系数。

6.根据权利要求2所述的温度控制方法，其特征在于，在对所述初始估计模型进行训练之前，所述温度控制方法还包括：
结合所述历史环境数据，分别对所述第一环境参数和所述第二环境参数进行放缩处理。

7.根据权利要求6所述的温度控制方法，其特征在于，结合所述历史环境数据，对所述第一环境参数进行放缩处理的步骤包括：
根据所述第一环境参数及所述历史环境数据，利用公式：

<...

【专利技术属性】
技术研发人员：代宝，程建军，易红艳，
申请(专利权)人：珠海拓芯科技有限公司，宁波奥克斯电气股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人