基于策略模型的智能设备控制方法及装置制造方法及图纸

技术编号：39193063 阅读：9 留言：0更新日期：2023-10-27 08:40

本发明专利技术公开了一种基于策略模型的智能设备控制方法及装置，该方法包括：确定目标用户在目标场景下的最优舒适参数，将预先确定出的策略参数集合及最优舒适参数输入至预先确定出的目标策略模型，得到目标策略模型的第一输出结果，根据第一输出结果执行针对目标场景中的目标智能设备的控制操作，或者，将第一输出结果确定为目标场景中的目标智能设备的控制参考依据，其中，目标智能设备与最优舒适参数的参数类型相匹配。可见，实施本发明专利技术能够通过策略模型对智能设备进行精准化控制，能够有利于提高控制智能设备的准确性及效率，以及能够有利于提高用户使用智能设备的体验感及舒适度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
基于策略模型的智能设备控制方法及装置

[0001]本专利技术涉及智能化控制
，尤其涉及一种基于策略模型的智能设备控制方法及装置。

技术介绍

[0002]为了使用户处于舒适的室内环境，本领域技术人员通常通过热舒适模型预测用户的热舒适水平，并将其运用到室内空调系统中，以便于为用户创造一个更加舒适的室内环境。当前广泛应用的热舒适模型为传统预测平均投票值模型PMV(Predicted Mean Vote)，但传统PMV模型考虑的因素较少，故传统PMV模型在实际场景的应用中是不准确的，无法真正反映用户的舒适性，进而导致对于室内环境中存在的智能设备的控制无法符合用户的舒适需求。因此，如何提供一个新的智能设备控制方法以提高对智能设备控制的精准性进而提高用户使用智能设备的体验感是本领域技术人员尚待解决的技术问题。

技术实现思路

[0003]本专利技术所要解决的技术问题在于，提供一种基于策略模型的智能设备控制方法及装置，能够通过策略模型对智能设备进行精准化控制，能够有利于提高控制智能设备的准确性及效率，以及能够有利于提高用户使用智能设备的体验感及舒适度。
[0004]为了解决上述技术问题，本专利技术第一方面公开了一种基于策略模型的智能设备控制方法，所述方法包括：
[0005]确定目标用户在目标场景下的最优舒适参数，其中，所述目标场景为需要进行舒适度调整的至少一个场景，所述目标用户为所述目标场景中的用户；
[0006]将预先确定出的策略参数集合及所述最优舒适参数输入至预先确定出的目标策略模型...

【技术保护点】

【技术特征摘要】
1.一种基于策略模型的智能设备控制方法，其特征在于，所述方法包括：确定目标用户在目标场景下的最优舒适参数，其中，所述目标场景为需要进行舒适度调整的至少一个场景，所述目标用户为所述目标场景中的用户；将预先确定出的策略参数集合及所述最优舒适参数输入至预先确定出的目标策略模型，得到所述目标策略模型的第一输出结果；根据所述第一输出结果执行针对所述目标场景中的目标智能设备的控制操作，或者，将所述第一输出结果确定为所述目标场景中的目标智能设备的控制参考依据；其中，所述目标智能设备与所述最优舒适参数的参数类型相匹配。2.根据权利要求1所述的基于策略模型的智能设备控制方法，其特征在于，所述确定目标用户在目标场景下的最优舒适参数，包括：采集目标场景对应的舒适参数集合，所述舒适参数集合包括用于确定目标用户在所述目标场景下的最优舒适参数的第一类型的参数集合和/或第二类型的参数集合，所述第一类型的参数集合包括所述目标场景的环境参数，所述第二类型的参数集合包括所述目标场景中所述目标用户对应的用户参数，或者，所述第二类型的参数集合包括所述目标场景中所述目标用户对应的用户参数以及根据采集到的所述目标用户的多模态信息分析出的辅助参数；将所述舒适参数集合输入至预先确定出的目标预测舒适模型，得到所述目标预测舒适模型的第二输出结果，根据所述第二输出结果确定所述目标用户在所述目标场景下的所述最优舒适参数。3.根据权利要求1或2所述的基于策略模型的智能设备控制方法，其特征在于，所述方法还包括：对预先确定出的策略模型进行训练，得到目标策略模型；其中，所述对预先确定出的策略模型进行训练，得到目标策略模型，包括：针对确定出的训练用场景，将确定出的策略模型训练数据输入至策略模型中得到所述策略模型的输出结果，根据预先确定出的即时回报计算函数，计算所述策略模型的输出结果对应的即时回报，判断当前条件是否满足所述训练用场景对应的训练截止条件；所述当前条件包括本轮训练对应的累计训练时长或者所述策略模型本次的输出结果；确定出的策略模型训练数据至少包括环境类型的训练数据及目的类型的训练数据，所述目的类型的训练数据包括确定出的训练用舒适参数；当判断出所述当前条件不满足所述训练用场景对应的训练截止条件，将由所述策略模型的输出结果所带来的新环境参数以及确定出的训练用舒适参数确定为新的策略模型训练数据，并触发执行所述的针对确定出的训练用场景，将确定出的策略模型训练数据输入至策略模型中得到所述策略模型的输出结果，根据预先确定出的即时回报计算函数，计算所述策略模型的输出结果对应的即时回报，判断当前条件是否满足所述训练用场景对应的训练截止条件的操作；当判断出所述当前条件满足所述训练用场景对应的训练截止条件，判断本轮训练对应的即时回报累计结果是否满足预先设定的稳定收敛条件；本轮训练对应的即时回报累计结果为本轮训练过程中所述策略模型的所有输出结果对应的所有即时回报的累计；当判断出本轮训练对应的即时回报累计结果满足所述稳定收敛条件时，将本轮训练截
止时的策略模型确定为目标策略模型；当判断出本轮训练对应的即时回报累计结果不满足所述稳定收敛条件时，调整所述策略模型对应的网络参数，并进行下一轮训练。4.根据权利要求1或2所述的基于策略模型的智能设备控制方法，其特征在于，所述目标用户在所述目标场景下的所述最优舒适参数包括至少一个目标舒适参数；其中，所述将预先确定出的策略参数集合及所述最优舒适参数输入至预先确定出的目标策略模型，得到所述目标策略模型的第一输出结果，包括：确定所述最优舒适参数包括的所有所述目标舒适参数的舒适参数类型；确定每个所述舒适参数类型对应的影响参数集合，每个所述舒适参数类型对应的影响参数集合包括从策略参数集合中确定出、对该舒适参数类型对应的舒适参数有影响的多个参数，或者，每个所述舒适参数类型对应的影响参数集合包括该舒适参数类型对应的附加影响参数以及从策略参数集合中确定出、对该舒适参数类型对应的舒适参数有影响的多个参数；每个所述舒适参数类型对应的附加影响参数包括该舒适参数类型对应的附加修正参数和/或该舒适参数类型对应的舒适影响参数，每个所述舒适参数类型对应的舒适影响参数包括对该舒适参数类型对应的舒适参数有影响的其它目标舒适参数；对于每个所述舒适参数类型，根据该舒适参...

【专利技术属性】
技术研发人员：陈小平，林勇进，刘栋樑，
申请(专利权)人：广州联动万物科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人