用于使用神经网络架构来控制分配系统的方法、控制器和系统技术方案

技术编号：19075991 阅读：43 留言：0更新日期：2018-09-29 17:56

描述了深度近似神经网络架构，通过需求响应应用的未见状态来外推数据以控制分配系统(如产品分配系统，能量分配系统(例如，热量或电力分配)是其一个示例)。本发明专利技术描述了主要以强化学习(RL)的形式的无模型控制技术，由此，控制器从与要控制的系统的交互中学习以控制产品分配，能量分配系统(例如，热量或电力分配)是产品分配的一个示例。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于使用神经网络架构来控制分配系统的方法、控制器和系统本专利技术涉及用于控制分配系统(如能量分配系统，例如热量或电力分配)的方法、控制器和系统以及当在处理引擎上执行时能够执行此类方法中的任一种方法的软件。
技术介绍
基于模型预测控制[1]或完全无模型的强化学习[2]，已知控制能量受限灵活性(ECF)源(诸如电动车辆，热泵或HVAC系统)的需求灵活性。当在需求响应设置中应用时，这种控制技术的期望结果是在下一个控制步骤期间由任意数量的设备消耗建议功率和/或能量。需要考虑不同的目标，包括网络约束(诸如不使系统过载)，至少满足最低能量需求以及尽管价格随时间变化但仍以经济的方式操作，例如当能源从能源竞拍获得时。当考虑基于模型的控制时，需要构建要控制的源的灵活性的模型，即设备能够在多大程度上修改其能量需求或在其需求方面是灵活的。这可能是一项具有挑战性的工程任务，并且取决于基于模型的控制器的经济价值，这样的模型在经济上可能是有趣的或者不是视情况而定的。基于模型的技术的典型优点是可以将领域知识直接纳入模型中。主要缺点是模型需要是准确的、被调协和维护。后两个方面是为什么MPC优选应用于其中控制器由人类专家持续监控的非常特定的领域，例如在化工行业中。这种实用性可以通过无模型控制[2]至少部分地减轻。然而，以MDP(马尔科夫决策过程)或部分可观察马尔可夫决策过程(POMDP)的形式来解决问题是一种标准的工作方式。这允许使用诸如Q函数的概念来捕捉控制动作的价值。然而，这里的主要问题在于MDP因维度和可伸缩性而受罚，即对于大状态维度(例如>5/>105个可能状...

【技术保护点】
1.一种控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的基于计算机的方法，所述方法包括以下步骤：使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至所述受限群集元素的物理产品量，由此所述控制技术从与要控制的所述需求响应系统的交互中学习，所述方法包括以下特征提取步骤：向卷积神经网络输入所述需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，所述群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中所述卷积神经网络执行2D卷积并学习从所述2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征，所述方法进一步包括：至少将所提取的局部卷积特征输入到第一神经网络，所述第一神经网络至少输出状态动作值函数的近似值，所述近似值为所述至少一个群集提供与所述至少一个群集处于一状态以及采取动作的每一个组合相关联的值，确定或计算控制动作，所述控制动作是采取动作与群集处于一状态的优选组合，或者从采取动作...

【技术特征摘要】
【国外来华专利技术】2015.12.31 EP 15203252.0;2016.04.27 EP 16167240.71.一种控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的基于计算机的方法，所述方法包括以下步骤：使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至所述受限群集元素的物理产品量，由此所述控制技术从与要控制的所述需求响应系统的交互中学习，所述方法包括以下特征提取步骤：向卷积神经网络输入所述需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，所述群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中所述卷积神经网络执行2D卷积并学习从所述2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征，所述方法进一步包括：至少将所提取的局部卷积特征输入到第一神经网络，所述第一神经网络至少输出状态动作值函数的近似值，所述近似值为所述至少一个群集提供与所述至少一个群集处于一状态以及采取动作的每一个组合相关联的值，确定或计算控制动作，所述控制动作是采取动作与群集处于一状态的优选组合，或者从采取动作和群集处于一状态的优选组合中导出，以及根据所述控制动作来在下一控制步骤期间分配将由群集元素消耗或释放的物理产品的目标量。2.如权利要求1所述的方法，其特征在于，所述控制技术是无模型的。3.如任意先前权利要求所述的方法，其特征在于，所述状态动作值函数是Q函数(Q(x,u))。4.如任意先前权利要求所述的方法，其特征在于，所述产品是热能或电力或电能。5.如任意先前权利要求所述的方法，其特征在于，所述控制动作和外生状态信息被输入到作为输入连接到所述第一神经网络的第二神经网络。6.如权利要求5所述的方法，其特征在于，进一步包括将外生状态信息和所述控制动作与所述卷积神经网络的所提取的卷积局部特征合并。7.如权利要求6所述的方法，其特征在于，在将外生状态信息和所述控制动作与所述卷积神经网络的所提取的卷积局部特征合并之前，执行单独的特征提取，其中所述外生状态信息和所述控制动作首先被馈送到所述第二神经网络中，所述第二神经网络将所述外生状态信息和所述控制动作映射到所学习的内部表示，所述内部表示在下一隐藏层中与所提取的卷积局部特征相组合。8.如权利要求5、6、7所述的方法，其特征在于，网络不平衡值被包括在所述外生状态信息中。9.如权利要求5到8中的任一项所述的方法，其特征在于，在一个时间步长中确定的控制动作被包括在下一时间步长的外生信息中。10.如任意先前权利要求所述的方法，其特征在于，进一步包括仿真旧式设备。11.如权利要求5到10中的任一项所述的方法，其特征在于，所述卷积神经网络首先捕捉所述2D网格结构和所述卷积神经网络中的模式，并且所述第一神经网络和所述第二神经网络学习从聚合的群集状态以及外生数据和所述控制动作到目标量的映射。12.如任意先前权利要求所述的方法，其特征在于，所述2D网格结构具有表示在固定时间步长处的群集状态的所有观察值的一个维度以及第二维度，所述第二维度对应于在所有时间步长处的群集元素的多个状态变量中的每一个的值随时间的变化，所述2D特征提取操作随时间和空间应用，从而导致对标识状态信息以及历史中的局部结构的时空特征的标识。13.如权利要求12所述的方法，其特征在于，学习表示发生在多个时间步长中的状态值变化的特征。14.如权利要求13所述的方法，其特征在于，所学习的特征被至少所述第一神经网络的更高网络层用作输入。15.如权利要求5到14中的任一项所述的方法，其特征在于，所述卷积网络以及所述第一神经网络和所述第二神经网络是一起训练的。16.一种用于控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的基于计算机的网络架构，包括：用于使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至所述受限群集元素的物理产品量的装置，由此所述控制技术从与要控制的所述需求响应系统的交互中学习，用于提取特征的装置，所述提取特征包括：向被适配成用于输入的卷积神经网络输入所述需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，所述群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中所述卷积神经网络执行2D卷积并学习从所述2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征；至少将从所述卷积神经网络中提取的局部卷积特征输入到第一神经网络中，所述第一神经网络被适配成至少...

【专利技术属性】
技术研发人员：B·克拉森斯，P·弗兰克斯，
申请(专利权)人：威拓股份有限公司，
类型：发明
国别省市：比利时,BE

全部详细技术资料下载我是这个专利的主人