一种用于配置技术系统的控制器的计算机实现的方法技术方案

技术编号：41176692 阅读：2 留言：0更新日期：2024-05-07 22:12

本发明专利技术涉及一种用于配置技术系统的控制器的计算机实现的方法，其中控制器基于由控制器针对输入数据集确定的输出数据集来控制技术系统，其中所述方法包括以下步骤：利用训练数据来训练第一数据驱动模型，训练数据包括若干个预先知道的输入数据集以及针对相应预先知道的输入数据集的对应预先知道的输出数据集，其中第一数据驱动模型预测针对当前时间点之后的一个或多个后续时间点的一个或多个目标变量的相应未来值；取决于由经训练的第一数据驱动模型预测的一个或多个目标变量的相应未来值，使用具有奖励的强化学习利用训练数据来训练第二数据驱动模型，其中经训练的第二数据驱动模型被配置成针对控制器内的输入数据集来确定输出数据集。

全部详细技术资料下载

【技术实现步骤摘要】

技术介绍

技术实现思路

【技术保护点】

1.一种用于配置技术系统的控制器(CO)的计算机实现的方法，其中控制器(CO)基于由控制器(CO)针对输入数据集(IS)确定的输出数据集(OS)来控制技术系统，其中输出数据集(OS)包括针对不在当前时间点(t)之前的一个或多个后续时间点(tp)的一个或多个控制变量(cv)的相应未来值，其中输入数据集(IS)包括针对不在当前时间点(t)之后的一个或多个后续时间点(tp)的一个或多个状态变量(sv，sv')的相应过去值、以及针对不在当前时间点(t)之后的一个或多个后续时间点(tp)的一个或多个目标变量(tv)的相应过去值、以及针对当前时间点(t)之前的一个或多个后续时间点(tp)的所述一个或多个控制变量(cv)的相应过去值，其中所述方法包括以下步骤：

2.根据权利要求1所述的方法，其中输入数据集(IS)进一步包括针对当前时间点(t)之后的一个或多个后续时间点(tp)的所述一个或多个状态变量(sv，sv')中的至少一个预定状态变量(sv')的相应未来值。

3.根据权利要求1或2所述的方法，其中输入数据集(IS)包括一个或多个变量，每个变量指示奖励(RW)中的对应的优化的目标。

4.根据前述权利要求中的一项所述的方法，其中所述技术系统是用于建筑物(B)的建筑物管理系统(BMS)。

5.根据权利要求4所述的方法，其中一个或多个状态变量(sv，sv')包括以下变量中的至少一个：

6.根据权利要求4或5所述的方法，其中一个或多个目标变量(tv)包括以下变量中的至少一个：

7.根据权利要求4至6中的一项所述的方法，其中一个或多个控制变量(cv)包括以下变量中的至少一个：

8.根据权利要求6和7所述的方法，其中奖励(RW)被定义为使得对于位于加热设定点的预测未来值和冷却设定点的预测未来值之间的房间温度的预测值，奖励(RW)比对于房间温度的其他值更高，并且奖励随着冷却功率的预测值的降低和加热功率的预测值的降低而增高。

9.根据前述权利要求中的一项所述的方法，其中第一数据驱动模型(SM)是提供所述一个或多个目标变量(tv)的预测未来值连同不确定性的概率模型，并且第二数据驱动模型(PO)将所述一个或多个不确定性作为一个或多个对应的惩罚项并入奖励(RW)中。

10.根据前述权利要求中的一项所述的方法，其中第一数据驱动模型(SM)是神经网络，所述神经网络优选地包括LSTM单元(LC)的一个或多个层和/或具有若干个多层感知器的一个或多个层。

11.根据前述权利要求中的一项所述的方法，其中第二数据驱动模型(PO)是神经网络，所述神经网络优选地包括多层感知器。

12.一种用于技术系统的控制器，其中控制器(CO)适于执行根据前述权利要求中的一项所述的方法。

13.一种具有存储在机器可读载体上的程序代码的计算机程序产品，当所述程序代码在计算机上执行时，所述计算机程序产品用于执行根据权利要求1至11中的一项所述的方法。

14.一种具有程序代码的计算机程序，当所述程序代码在计算机上执行时，所述计算机程序用于执行根据权利要求1至11中的一项所述的方法。

...

【技术特征摘要】

1.一种用于配置技术系统的控制器(co)的计算机实现的方法，其中控制器(co)基于由控制器(co)针对输入数据集(is)确定的输出数据集(os)来控制技术系统，其中输出数据集(os)包括针对不在当前时间点(t)之前的一个或多个后续时间点(tp)的一个或多个控制变量(cv)的相应未来值，其中输入数据集(is)包括针对不在当前时间点(t)之后的一个或多个后续时间点(tp)的一个或多个状态变量(sv，sv')的相应过去值、以及针对不在当前时间点(t)之后的一个或多个后续时间点(tp)的一个或多个目标变量(tv)的相应过去值、以及针对当前时间点(t)之前的一个或多个后续时间点(tp)的所述一个或多个控制变量(cv)的相应过去值，其中所述方法包括以下步骤：

2.根据权利要求1所述的方法，其中输入数据集(is)进一步包括针对当前时间点(t)之后的一个或多个后续时间点(tp)的所述一个或多个状态变量(sv，sv')中的至少一个预定状态变量(sv')的相应未来值。

3.根据权利要求1或2所述的方法，其中输入数据集(is)包括一个或多个变量，每个变量指示奖励(rw)中的对应的优化的目标。

4.根据前述权利要求中的一项所述的方法，其中所述技术系统是用于建筑物(b)的建筑物管理系统(bms)。

5.根据权利要求4所述的方法，其中一个或多个状态变量(sv，sv')包括以下变量中的至少一个：

6.根据权利要求4或5所述的方法，其中一个或多个目标变量(tv)包括以下变量中的至少一个：

7.根...

【专利技术属性】
技术研发人员：J·马德斯帕赫，H·舍纳，P·鲍曼，U·P·特瓦里，
申请(专利权)人：西门子瑞士有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人