工业厂房控制器制造技术

技术编号:29035525 阅读:15 留言:0更新日期:2021-06-26 05:43
用于训练控制工业厂房的操作的工业厂房控制器的方法、系统和设备、包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法,其包括使用模拟所述工业厂房的操作的工业厂房模拟模型来生成训练数据。使用所述训练数据通过强化学习技术来训练所述工业厂房控制器。所述工业厂房控制器被配置成根据多个工业厂房控制器参数处理输入以生成动作选择策略输出,所述输入包括表征所述工业厂房的状态的状态向量,所述动作选择策略输出定义要执行以控制所述工业厂房的所述操作的控制动作。以控制所述工业厂房的所述操作的控制动作。以控制所述工业厂房的所述操作的控制动作。

【技术实现步骤摘要】
【国外来华专利技术】工业厂房控制器
[0001]相关申请的交叉引用
[0002]本申请要求2018年12月13日提交的美国临时申请No.62/779,148的优先权,所述申请的全部内容在此以引用方式并入。

技术介绍

[0003]本说明书涉及用于控制工业厂房的操作的控制系统。
[0004]工业厂房可以是处理材料(例如,化学地、机械地、电气地或其组合)以产生加工输出的任何设施。工业厂房的实例包括冶炼厂、造纸厂和炼油厂。工业厂房的控制系统可以选择要执行以控制工业厂房的操作的控制动作。因此,本专利技术的目标是避免用于工业厂房的控制系统的已知缺点。此外,本专利技术的目标是促进工业厂房的操作并提供其效率。本专利技术所基于的那些目标通过所要求保护的特征,特别是通过独立权利要求所要求保护的主题来解决。

技术实现思路

[0005]本说明书描述一种系统,所述系统被实施为在一个或多个位置中的一个或多个计算机上的计算机程序,所述系统训练控制工业厂房的操作的工业厂房控制器。
[0006]根据第一方面,提供一种方法,所述方法由一个或多个数据处理设备执行以训练控制工业厂房的操作的工业厂房控制器。所述方法包括使用模拟工业厂房的操作的工业厂房模拟模型来生成训练数据。生成训练数据包括,在多个时步中的每个时步处:使用工业厂房模拟模型处理(i)表征在当前时步处工业厂房的模拟状态的当前状态向量,以及(ii)要在当前时步处执行的控制动作;使用工业厂房模拟模型生成表征在执行控制动作之后的工业厂房的模拟状态的后续状态向量;以及至少基于表征在执行控制动作之后的工业厂房的模拟状态的后续状态向量,确定在当前时步处接收到的奖励。使用训练数据通过强化学习技术来训练工业厂房控制器。工业厂房控制器被配置成根据工业厂房控制器参数处理输入以生成动作选择策略输出,所述输入包括表征工业厂房的状态的状态向量,所述动作选择策略输出定义要执行以控制工业厂房的操作的控制动作。
[0007]在一些实施方式中,训练包括调整工业厂房控制器参数的值,以增加通过执行由工业厂房控制器所生成的动作选择策略输出定义的控制动作而被接收的累积奖励的度量。
[0008]在一些实施方式中,使用并行运行的工业厂房模拟模型的多个实例来生成训练数据。
[0009]在一些实施方式中,生成训练数据进一步包括:在一个或多个特定时步处,调整当前状态向量以模拟影响工业厂房的操作的事件的发生。
[0010]在一些实施方式中,事件包括工业厂房中的设备故障。
[0011]在一些实施方式中,在每一特定时步处,通过从可能事件的预定集合上的概率分布采样来确定事件,其中所述可能事件包括不影响工业厂房的操作的非事件。
[0012]在一些实施方式中,在时步处接收到的奖励表征在时步处执行的控制动作如何有
效地完成某些任务。
[0013]在一些实施方式中,所述方法进一步包括:确定工业厂房控制器是否通过一个或多个认证测试,其中认证测试评估工业厂房控制器是否能够通过根据工业厂房控制器参数的当前值生成控制动作,来有效地控制工业厂房的操作;以及响应于确定工业厂房控制器通过认证测试,使用工业厂房控制器来控制工业厂房的操作。
[0014]在一些实施方式中,所述方法进一步包括使用工业厂房控制器来控制工业厂房的操作,包括在多个给定时步中的每个时步处:获得表征在给定时步处工业厂房的状态的状态向量;使用工业厂房控制器处理输入以生成动作选择策略输出,所述输入包括表征在给定时步处工业厂房的状态的状态向量;以及确定要基于动作选择策略输出而在给定时步处执行的控制动作。
[0015]在一些实施方式中,动作选择策略输出包括用于可能控制动作的预定集合中的每个控制动作的相应分数。
[0016]在一些实施方式中,确定要基于动作选择策略输出而执行的控制动作包括选择具有最高分数的控制动作。
[0017]在一些实施方式中,工业厂房控制器包括一个或多个神经网络,并且工业厂房控制器参数包括一个或多个神经网络的权重值。
[0018]根据第二方面,提供一种系统,所述系统包括:一个或多个计算机;以及一个或多个存储装置,其通信地耦合到所述一个或多个计算机,其中所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机训练工业厂房控制器,所述工业厂房控制器通过执行包括前述方法的操作的操作来控制工业厂房的操作。
[0019]根据第三方面,提供一个或多个非暂时性计算机存储介质,所述一个或多个非暂时性计算机存储介质存储指令,所述指令在由一个或多个计算机执行时使所述一个或多个计算机训练工业厂房控制器,所述工业厂房控制器通过执行包括前述方法的操作的操作来控制工业厂房的操作。
[0020]可以实施本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
[0021]在本说明书中描述的训练系统,可以使用由数值地模拟工业厂房的操作的一个或多个模拟系统生成的训练数据,来训练用于控制工业厂房的操作的工业厂房控制器。通过例如并行运行多个模拟系统并使模拟系统运行的速度比工业厂房实际操作的“实时”速度快,训练系统可以生成大量的训练数据。可以由模拟系统生成的大量训练数据极大地超过了有限数量的实际(即,非模拟)训练数据,该实际训练数据通过记录表征工业厂房的实际操作的数据而获得。训练系统可以使用通过使用模拟系统生成的大量训练数据来训练控制器,以与训练系统仅使用实际训练数据的情况相比更有效地控制工业厂房。
[0022]本说明书中描述的训练系统可以训练工业厂房控制器,以有效地对影响工业厂房的操作的各种事件(例如,设备故障或输入材料改变)作出响应,而不必实际体验这些事件。具体来说,训练系统可以使用模拟系统来模拟可能会影响工业厂房的操作的数千个事件的发生,此后训练控制器以有效地对这些事件的发生作出响应。相反,工业厂房的操作人员可能准备不足,从而无法有效地对影响工业厂房的操作的某些事件作出响应。例如,某些事件
在工业厂房的实际操作中可能很少发生,因此人类操作员可能缺乏对这些事件作出响应的经验。然而,在本说明书中描述的训练系统可以训练控制器,以通过在不同模拟中将控制器数千次地暴露于罕见事件而有效地对这些罕见事件作出响应。更具体来说,模拟可以启用对使工业厂房无法操作的事件的训练,这使用实际数据是不可行的。
[0023]通过模拟在根据“探索策略”选择控制动作时(例如,在随机地选择一些控制动作的情况下)工业厂房的操作,在本说明书中描述的训练系统可以生成高度多样化的训练数据的集合。以此方式,训练系统使控制器能够在将控制器部署到工业厂房的实际操作之前“探索”可能控制动作的空间以及其对工业厂房的模拟结果。如果直接训练控制器以在不借助模拟训练数据的情况下控制工业厂房的操作,则控制器无法在选择控制动作时实施探索策略,因为选择不当的控制动作可能会损害工业厂房或导致工业厂房不安全地操作。
[0024]在附图和以下具体实施方式中阐述本说明书的主题的一个或多个实例的细节。主题的其它特征、方面和优点将从具体实施方式、附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个数据处理设备执行的用于训练工业厂房控制器的方法,所述工业厂房控制器用于控制工业厂房的操作,所述方法包括:使用模拟所述工业厂房的操作的工业厂房模拟模型来生成训练数据,包括:在多个时步中的每个时步处,使用所述工业厂房模拟模型,处理(i)表征在当前时步处所述工业厂房的模拟状态的当前状态向量,以及(ii)要在所述当前时步处执行的控制动作;使用所述工业厂房模拟模型,生成表征在执行所述控制动作之后的所述工业厂房的所述模拟状态的后续状态向量;并且至少基于表征在执行所述控制动作之后的所述工业厂房的所述模拟状态的所述后续状态向量,确定在所述当前时步处接收到的奖励;并且使用所述训练数据通过强化学习技术训练所述工业厂房控制器,其中,所述工业厂房控制器被配置成:根据多个工业厂房控制器参数对以下输入进行处理以生成动作选择策略输出,所述输入包括表征所述工业厂房的状态的状态向量,所述动作选择策略输出定义要被执行以控制所述工业厂房的所述操作的控制动作。2.根据权利要求1所述的方法,其中,所述训练包括:调整所述多个工业厂房控制器参数的值,以增加通过执行由所述工业厂房控制器所生成的动作选择策略输出所定义的控制动作而被接收到的累积奖励的度量。3.根据权利要求1或2所述的方法,其中,使用并行运行的所述工业厂房模拟模型的多个实例来生成所述训练数据。4.根据权利要求1至3中任一项所述的方法,其中,生成所述训练数据进一步包括:在一个或多个特定时步处,调整所述当前状态向量,以模拟影响所述工业厂房的所述操作的事件的发生。5.根据权利要求1至4中任一项所述的方法,其中,所述事件包括所述工业厂房中的设备故障。6.根据权利要求1至5中任一项所述的方法,其中,在每个特定时步处,通过从可能事件的预定集合上的概率分布进行采样来确定所述事件,其中,所述可能事件包括不影响所述工业厂房的所述操作的非事件。7.根据权利要求1至6中任一项所述的方法,其中,在所述时步处接收到的所述奖励表征了在所述时步处执行的所述控制动作如何有效地完成某些任务。8.根据权利要求1至7中任一项所述的方法,进一步包括:确定所述工业厂房控制器是否通过一个或多个认证测试,其中,认证测试评估所述工业厂房控制器是否能够通过根据所述多个工业厂房控制器参数的当前值生成控制动作来有效地控制所述工业厂房的所述操作;并且响应于确定所述工业厂房控制器通过所述认证测试,使用所述工业厂房控制器来控制所述工业厂房的所述操作。9.根据权利要求1至8中任一项所述的方法,进一步包括:使用所述工业厂房控制器来控制所述工业厂房的所述操作,包括:在多个给定时步中的每个时步处,
获得表征在所述给定时步处所述工业厂房的状态的状态向量;使用所述工业厂房控制器对以下输入进行处理以生成动作选择策略输出,所述输入包括表征在所述给定时步处所述工业厂房的所述状态的所述状态向量;以及确定要基于所述动作选择策略输出而在所述给定时步处执行的控制动作。10.根据权利要求9所述的方法,其中,所述动作选择策略输出包括对于可能控制动作的预定集合中的每个控制动作的相应分数。11.根据权利要求9或10所述的方法,其中,确定要基于所述动作选择策略输出所执行的控制动作包括:选择具有最高分数的控制动作。12.根据权利要求1至11中任一项所述的方法,其中,所述工业厂房控制器包括一个或多个神经网络,并且所述工业厂房控制器参数包括所述一个或多个神经网络的权重值。13.一种系统,包括:一个或多个计算机;以及一个或多个存储装置,所述一个或多个存储装置通信地耦合到所述一个或多...

【专利技术属性】
技术研发人员:阿瑟
申请(专利权)人:安德里茨公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1