用于使用神经网络架构来控制分配系统的方法、控制器和系统技术方案

技术编号:19075991 阅读:43 留言:0更新日期:2018-09-29 17:56
描述了深度近似神经网络架构,通过需求响应应用的未见状态来外推数据以控制分配系统(如产品分配系统,能量分配系统(例如,热量或电力分配)是其一个示例)。本发明专利技术描述了主要以强化学习(RL)的形式的无模型控制技术,由此,控制器从与要控制的系统的交互中学习以控制产品分配,能量分配系统(例如,热量或电力分配)是产品分配的一个示例。

【技术实现步骤摘要】
【国外来华专利技术】用于使用神经网络架构来控制分配系统的方法、控制器和系统本专利技术涉及用于控制分配系统(如能量分配系统,例如热量或电力分配)的方法、控制器和系统以及当在处理引擎上执行时能够执行此类方法中的任一种方法的软件。
技术介绍
基于模型预测控制[1]或完全无模型的强化学习[2],已知控制能量受限灵活性(ECF)源(诸如电动车辆,热泵或HVAC系统)的需求灵活性。当在需求响应设置中应用时,这种控制技术的期望结果是在下一个控制步骤期间由任意数量的设备消耗建议功率和/或能量。需要考虑不同的目标,包括网络约束(诸如不使系统过载),至少满足最低能量需求以及尽管价格随时间变化但仍以经济的方式操作,例如当能源从能源竞拍获得时。当考虑基于模型的控制时,需要构建要控制的源的灵活性的模型,即设备能够在多大程度上修改其能量需求或在其需求方面是灵活的。这可能是一项具有挑战性的工程任务,并且取决于基于模型的控制器的经济价值,这样的模型在经济上可能是有趣的或者不是视情况而定的。基于模型的技术的典型优点是可以将领域知识直接纳入模型中。主要缺点是模型需要是准确的、被调协和维护。后两个方面是为什么MPC优选应用于其中控制器由人类专家持续监控的非常特定的领域,例如在化工行业中。这种实用性可以通过无模型控制[2]至少部分地减轻。然而,以MDP(马尔科夫决策过程)或部分可观察马尔可夫决策过程(POMDP)的形式来解决问题是一种标准的工作方式。这允许使用诸如Q函数的概念来捕捉控制动作的价值。然而,这里的主要问题在于MDP因维度和可伸缩性而受罚,即对于大状态维度(例如>5/>105个可能状态),大多数常规技术变得不切实际,因为每个状态的值必须被理解,并且这种穷举技术显然随着状态维度呈指数形态地缩放。系统或设备级别的传感器数据现在可用或者可以在将来的系统中提供,该传感器数据给出系统状态的指示,例如,房间温度可以通过建筑物或热水箱中的一个传感器测量,可以测量一层或若干层处的水温。该信息可以被看作是部分状态信息,例如通过定义,像建筑物温度那样的温度或者壁式家具的温度不需要直接测量,但可以是表示这种动态的“特征”,其可以基于历史信息来标识。这通过添加历史状态信息来扩展可用状态信息。对于较大系统,由不同传感器测量的特征之间的动态被耦合到状态空间。该信息需要包括所有的状态信息,例如,在具有不同温度传感器或“传感器群”的热水箱中,动态被群集并因此控制变成为群集控制,例如,当使用基于能量竞拍的分派机制来控制大型ECF群集时。例如,如果热水槽或建筑物具有10个传感器并且在最后10个时间步长(例如15分钟分辨率)下的测量值被纳入状态矩阵表示,则这导致100维状态空间。再次参考群集控制,如果群集中的不同ECF针对某个状态被聚合,则可以使用聚合步骤来降低维度,举例而言,具有在0.2和0.3之间的SoC(电荷状态)的所有电池被组合在一起,例如可以选择一种分仓方法,并且0.2和0.3之间的SOC的所有电池都可以放置在一个仓中。参考文献[1]J.Cigler、D.Gyalistras、J.Siroky、V.Tiet、L.Ferkl的“超越理论:在建筑物中实施模型预测控制的挑战(Beyondtheory:the`challengeofimplementingmodelpredictivecontrolinbuildings)”,第11届欧洲暖通空调学会世界大会会刊,气候变迁行动总署,2013年。[2]O'Neill,D.、Levorato,M.、Goldsmith,A.、Mitra,U.的“使用强化学习的住宅需求响应(ResidentialDemandResponseUsingReinforcementLearning)”,2010年第一届IEEE智能电网通信(SmartGridComm)国际会议,第卷,第期,第409-414页,2010年10月4-6日[3]Kara,E.C.、Berges,M.、Krogh,B.、Kar,S.的“在智能电网中使用智能设备进行系统级管理和控制:强化学习框架(Usingsmartdevicesforsystem-levelmanagementandcontrolinthesmartgrid:Areinforcementlearningframework)”,2012年IEEE第三届智能电网通信(SmartGridComm)国际会议,第卷,第期,第85-90页,2012年11月5日至8日。[4]WeiZhang、Kalsi,K.、Fuller,J.、Elizondo,M.、Chassin,D.的“用于具有需求响应的异构恒温控制负载的聚合模型(Aggregatemodelforheterogeneousthermostaticallycontrolledloadswithdemandresponse)”,2012年IEEE电力与能源学会会员大会,第卷,第期,第1-8页,2012年7月22-26日。[5]Bertsekas的凸优化算法。[6]S.Koch、J.L.Mathieu和D.S.Callaway的“用于辅助服务的聚合式异构恒温控制负载的建模和控制(Modelingandcontrolofaggregatedheterogeneousthermostaticallycontrolledloadsforancillaryservices)”,第17届IEEE电力系统会议(PSCC)会刊,第1-7页,瑞典斯德哥尔摩,2011年8月。[7]E.C.Kara、M.Berges、B.Krogh和S.Kar的“使用智能设备进行智能电网中的系统级管理和控制:强化学习框架(Usingsmartdevicesforsystem-levelmanagementandcontrolinthesmartgrid:Areinforcementlearningframework)”,第三届IEEE智能电网通信(SmartGridComm)国际会议会刊,第85-90页,中国台湾台南市,2012年11月。[8]D.Ernst、P.Geurts和L.Wehenkel的“基于树的批量模式强化学习(Tree-basedbatchmodereinforcementlearning)”,机器学习研究期刊,第503-556页,2005年。[9]M.Riedmiller的“通过数据高效神经强化学习方法的神经拟合Q迭代第一经验(NeuralfittedQ-iteration–firstexperienceswithadataefficientneuralreinforcementlearningmethod)”,第十六届欧洲机器学习会议(ECML)会刊,第3720卷,第317页,葡萄牙波尔图:Springer出版社,2005年10月。[10]V.Mnih、K.Kavukcuoglu、D.Silver、AARusu、J.Veness、MGBellemare、A.Graves、M.Riedmiller、AKFidjeland、G.Ostrovski等人的“通过深度强化学习的人类级控制(Human-levelcontrolthroughdeepreinforcementle本文档来自技高网...

【技术保护点】
1.一种控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的基于计算机的方法,所述方法包括以下步骤:使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至所述受限群集元素的物理产品量,由此所述控制技术从与要控制的所述需求响应系统的交互中学习,所述方法包括以下特征提取步骤:向卷积神经网络输入所述需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物,其中2D网格结构的一个维度表示多个时间步长,而另一个维度在多个时间步长捕捉群集状态,所述群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示,其中所述卷积神经网络执行2D卷积并学习从所述2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征,所述方法进一步包括:至少将所提取的局部卷积特征输入到第一神经网络,所述第一神经网络至少输出状态动作值函数的近似值,所述近似值为所述至少一个群集提供与所述至少一个群集处于一状态以及采取动作的每一个组合相关联的值,确定或计算控制动作,所述控制动作是采取动作与群集处于一状态的优选组合,或者从采取动作和群集处于一状态的优选组合中导出,以及根据所述控制动作来在下一控制步骤期间分配将由群集元素消耗或释放的物理产品的目标量。...

【技术特征摘要】
【国外来华专利技术】2015.12.31 EP 15203252.0;2016.04.27 EP 16167240.71.一种控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的基于计算机的方法,所述方法包括以下步骤:使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至所述受限群集元素的物理产品量,由此所述控制技术从与要控制的所述需求响应系统的交互中学习,所述方法包括以下特征提取步骤:向卷积神经网络输入所述需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物,其中2D网格结构的一个维度表示多个时间步长,而另一个维度在多个时间步长捕捉群集状态,所述群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示,其中所述卷积神经网络执行2D卷积并学习从所述2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征,所述方法进一步包括:至少将所提取的局部卷积特征输入到第一神经网络,所述第一神经网络至少输出状态动作值函数的近似值,所述近似值为所述至少一个群集提供与所述至少一个群集处于一状态以及采取动作的每一个组合相关联的值,确定或计算控制动作,所述控制动作是采取动作与群集处于一状态的优选组合,或者从采取动作和群集处于一状态的优选组合中导出,以及根据所述控制动作来在下一控制步骤期间分配将由群集元素消耗或释放的物理产品的目标量。2.如权利要求1所述的方法,其特征在于,所述控制技术是无模型的。3.如任意先前权利要求所述的方法,其特征在于,所述状态动作值函数是Q函数(Q(x,u))。4.如任意先前权利要求所述的方法,其特征在于,所述产品是热能或电力或电能。5.如任意先前权利要求所述的方法,其特征在于,所述控制动作和外生状态信息被输入到作为输入连接到所述第一神经网络的第二神经网络。6.如权利要求5所述的方法,其特征在于,进一步包括将外生状态信息和所述控制动作与所述卷积神经网络的所提取的卷积局部特征合并。7.如权利要求6所述的方法,其特征在于,在将外生状态信息和所述控制动作与所述卷积神经网络的所提取的卷积局部特征合并之前,执行单独的特征提取,其中所述外生状态信息和所述控制动作首先被馈送到所述第二神经网络中,所述第二神经网络将所述外生状态信息和所述控制动作映射到所学习的内部表示,所述内部表示在下一隐藏层中与所提取的卷积局部特征相组合。8.如权利要求5、6、7所述的方法,其特征在于,网络不平衡值被包括在所述外生状态信息中。9.如权利要求5到8中的任一项所述的方法,其特征在于,在一个时间步长中确定的控制动作被包括在下一时间步长的外生信息中。10.如任意先前权利要求所述的方法,其特征在于,进一步包括仿真旧式设备。11.如权利要求5到10中的任一项所述的方法,其特征在于,所述卷积神经网络首先捕捉所述2D网格结构和所述卷积神经网络中的模式,并且所述第一神经网络和所述第二神经网络学习从聚合的群集状态以及外生数据和所述控制动作到目标量的映射。12.如任意先前权利要求所述的方法,其特征在于,所述2D网格结构具有表示在固定时间步长处的群集状态的所有观察值的一个维度以及第二维度,所述第二维度对应于在所有时间步长处的群集元素的多个状态变量中的每一个的值随时间的变化,所述2D特征提取操作随时间和空间应用,从而导致对标识状态信息以及历史中的局部结构的时空特征的标识。13.如权利要求12所述的方法,其特征在于,学习表示发生在多个时间步长中的状态值变化的特征。14.如权利要求13所述的方法,其特征在于,所学习的特征被至少所述第一神经网络的更高网络层用作输入。15.如权利要求5到14中的任一项所述的方法,其特征在于,所述卷积网络以及所述第一神经网络和所述第二神经网络是一起训练的。16.一种用于控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的基于计算机的网络架构,包括:用于使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至所述受限群集元素的物理产品量的装置,由此所述控制技术从与要控制的所述需求响应系统的交互中学习,用于提取特征的装置,所述提取特征包括:向被适配成用于输入的卷积神经网络输入所述需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物,其中2D网格结构的一个维度表示多个时间步长,而另一个维度在多个时间步长捕捉群集状态,所述群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示,其中所述卷积神经网络执行2D卷积并学习从所述2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征;至少将从所述卷积神经网络中提取的局部卷积特征输入到第一神经网络中,所述第一神经网络被适配成至少...

【专利技术属性】
技术研发人员:B·克拉森斯P·弗兰克斯
申请(专利权)人:威拓股份有限公司
类型:发明
国别省市:比利时,BE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1