当前位置: 首页 > 专利查询>罗伯特专利>正文

用于产生描述可控系统的状态模型的方法技术方案

技术编号:37414123 阅读:9 留言:0更新日期:2023-04-30 09:38
本发明专利技术涉及一种用于产生描述可控系统的状态模型的方法,其中所述方法包括以下步骤:提供所述状态模型的至少一部分;从动作集合中选择(3)动作;从所述组件的第二状态开始,通过将来自所述动作集合的每个动作连续应用于所述组件来模拟(5)所述组件的进一步状态,其中针对每次向所述组件应用一个动作分别确定奖励;基于所确定的奖励优化(6)所述状态模型的所述至少一部分,其中基于用于减小方差的方法和所确定的奖励的最大值来优化所述状态模型的所述至少一部分;以及将所选择的动作和所述第二状态添加(7)到所述状态模型的所述至少一部分。部分。部分。

【技术实现步骤摘要】
用于产生描述可控系统的状态模型的方法


[0001]本专利技术涉及一种用于产生描述可控系统的状态模型的方法,一种基于产生的状态模型选择要应用于所述可控系统的组件的动作的方法,以及一种基于选择的动作控制所述可控系统的方法。

技术介绍

[0002]可控系统应理解为这样一种系统,其可以被控制为使得可以通过应用合适的调节信号或通过应用合适的任务或动作,在有限的时间内将所述系统的状态或所述系统的一个或多个组件的状态转换为新状态,特别是从选择的输入状态转换为选择的输出状态。
[0003]由状态、状态过渡和动作组成的可控系统的行为模型也称为状态模型或所述可控系统的系统描述。在此,这些状态例如可以是可控系统的一个或多个组件的性质或表征组件状态的其他信息,例如关于所述可控系统的一个或多个组件的利用率的信息。这些动作还可以是可由所述可控系统执行的用于控制所述可控系统的功能或任务,其中所述状态过渡象征在所述动作之一应用于所述可控系统的组件之后所述组件的状态变化。
[0004]这种状态模型尤其用于学习或象征在从可控系统的组件的特定状态开始应用动作时所述可控系统的行为,其中然后基于所述状态模型例如可以选择具有达到选择的状态的目标的一个或多个动作。
[0005]然而,在此可能被证明困难的是,选择必须执行的动作以产生选择或期望的状态。从而往往可以通过动作的各种组合来达到期望的状态。还可能出现以下状况,其中在处理向所述可控系统的组件的动作分配期间添加要由组件处理的进一步任务或动作。
[0006]在此已知尝试基于诸如蒙特卡罗模拟方法的自学学习方法解决对应的分配问题的方法。这种模拟方法的优点是可以学习状态模型或可控系统的行为而无需预给定规则。然而,这种方法的缺点是它们与一定的不确定性相关联,特别是因为在学习方法的应用期间获得的知识取决于一定的随机条件,例如当前存在的情况。因此,需要改进用于产生这种状态模型的方法。
[0007]从文献US 9,047,423 B2已知一种用于在规划问题状态中选择动作的方法,其中从规划问题的当前状态开始,对一个或多个处理序列、状态过渡和奖励进行符号化。在模拟给定状态下给定动作的执行期间,会管理具有观察到的上下文相关的状态信息和观察到的由该动作产生的累积奖励的数据集。此外,对所述数据集执行回归拟合,所述回归拟合使得可以根据上下文状态来估计预期奖励。预期奖励的估计用于指导模拟期间的动作选择。在完成所有模拟之后,可以在规划问题的当前状态下执行在模拟期间获得最高平均奖励的最高级别动作。

技术实现思路

[0008]因此,本专利技术所基于的任务是说明一种用于产生描述可控系统的状态模型的改进的方法。
[0009]该任务通过根据权利要求1的特征的用于产生描述可控系统的状态模型的方法来解决。
[0010]该任务还通过具有权利要求7的特征的用于产生描述可控系统的状态模型的控制设备来解决。
[0011]该任务还通过具有权利要求13的特征的计算机程序和具有权利要求14的特征的计算机可读数据载体来解决。
[0012]根据本专利技术的一种实施方式,该任务通过一种用于产生描述可控系统的状态模型的方法来解决,其中提供关于所述可控系统的组件的状态和影响所述可控系统的组件的状态的动作之间的关系的信息,其中所述信息形成所述状态模型的至少一部分,从影响所述可控系统的组件的状态的动作集合中选择动作,将所选择的动作应用于所述可控系统的组件,其中所述可控系统的组件在应用所选择的动作之前处于第一状态,并且在应用所选择的动作之后处于第二状态,其中从所述可控系统的组件的第二状态开始模拟所述可控系统的组件的进一步状态,其中模拟进一步状态包括连续应用来自影响所述可控系统的组件的状态的所述动作集合中的每个动作,其中针对每次向所述可控系统的组件应用一个动作分别确定奖励,基于所确定的奖励优化所述状态模型的所述至少一部分,并且其中将所选择的动作和所述第二状态添加到所述状态模型的所述至少一部分,其中基于用于减小方差的方法和所确定的奖励的最大值来优化所述状态模型的所述至少一部分。
[0013]可控系统在此情况下应理解为这样一种系统,其可被控制为使得可以通过应用合适的调节信号或通过应用合适的任务或动作,在有限的时间内将所述系统的状态或所述系统的一个或多个组件的状态转换为新状态,特别是从选择的输入状态转换为选择的输出状态。所述可控系统的组件在此应理解为构成所述系统的各个可控组件或执行器或机器。例如,所述可控系统在此可以是用于制造诸如半导体晶片的器件的生产系统,所述生产系统由各个生产机器组成。此外,所述可控系统也可以例如是数据传输系统,其中所述系统的各个组件代表通信参与者,例如客户端或服务器。
[0014]所述可控系统的组件的状态应进一步理解为所述可控系统的组件在特定时间点的准确配置。
[0015]影响所述可控系统的组件的状态的动作应进一步理解为其应用可以导致所述可控系统的组件的状态改变或受到影响的动作。
[0016]奖励也是数值,该数值由所述可控系统在每个选择的动作或选择的任务之后立即传送给对应的人工智能或代理,并且象征着该动作的执行对解决所基于的问题的对应成功前景。例如,如果所述可控系统的组件的状态在所述动作之后有所改善,则奖励的总和就会增加。如果所述状态恶化,则存在扣除作为惩罚。
[0017]用于减小方差的方法在此特别是一种用于提高产生所述状态模型的效率的方法,其中提高估计或模拟所述状态模型的准确性,并且减小、尽可能最小化估计中的相应方差。
[0018]因此说明了一种方法,该方法被构造为以自学方式学习所述可控系统的行为或以自学方式产生所述状态模型,特别是基于诸如蒙特卡罗树搜索的蒙特卡罗模拟方法。在此,通过应用减小方差的方法,可以提高在产生所述状态模型时的准确性。此外,在此在产生状态空间时也可以减小随机性(即基于在产生所述状态模型期间仅随机产生的状态的奖励)的影响,因为还应用了控制变量。总之,由此说明了一种用于产生描述可控系统的状态模型
的改进方法。
[0019]在此该方法可以重复执行,例如直到所述状态模型覆盖所述可控系统的组件的所有可能的动作和状态组合为止,或者直到所述状态模型覆盖一定数量的节点或连续动作。
[0020]提供的关于所述可控系统的组件的状态和影响所述可控系统的组件的状态的动作之间的关系的信息也可以是所述状态模型的在该方法的先前应用期间获得的部分。此外,还可以例如通过在应用了来自影响所述可控系统的组件的状态的动作集合中的动作之后分别检测所述可控系统的组件的状态来获得所述信息。
[0021]产生的状态空间可以随后用于规划要通过所述可控系统执行的技术过程,例如从可由可控系统执行的过程中选择最佳过程,或用于开发和制造所述可控系统本身。
[0022]在此,该方法还可以包括探测所述可控系统的组件的所述第二状态的步骤。特别地,因此可以检测在其上执行状态模型的产生的数据处理设施之外的情况,并且可以基于这些情况来产生所述状态模型。
[0023]在一种实施方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于产生描述可控系统的状态模型的方法,其中所述方法包括以下步骤:提供(2)关于所述可控系统的组件的状态和影响所述可控系统的组件的所述状态的动作之间的关系的信息,其中所述信息形成所述状态模型的至少一部分;从影响所述可控系统的组件的状态的动作集合中选择(3)动作;将所选择的动作应用(4)于所述可控系统的组件,其中所述可控系统的组件在应用所选择的动作之前处于第一状态,并且在应用所选择的动作之后处于第二状态;从所述可控系统的组件的所述第二状态开始模拟(5)所述可控系统的组件的进一步状态,其中模拟进一步状态包括将来自影响所述可控系统的组件的状态的所述动作集合中的每个动作连续应用于所述可控系统的组件,其中针对每次向所述可控系统的组件应用一个动作分别确定奖励;基于所确定的奖励优化(6)所述状态模型的所述至少一部分,其中基于用于减小方差的方法和所确定的奖励的最大值来优化所述状态模型的所述至少一部分;以及将所选择的动作和所述第二状态添加(7)到所述状态模型的所述至少一部分。2.根据权利要求1所述的方法,其中所述方法还包括以下步骤:

探测(8)所述可控系统的组件的所述第二状态。3.根据权利要求1或2所述的方法,其中基于用于减小方差的方法和所确定的奖励的最大值来优化(6)所述状态空间的所述至少一部分包括基于控制变量和所确定的奖励的最大值来优化所述状态模型的所述至少一部分。4.一种用于从影响可控系统的组件的状态的动作集合中选择要应用于所述可控系统的组件的动作的方法,其中所述方法包括以下步骤:由根据权利要求1至3中任一项所述的用于产生描述可控系统的状态模型的方法来产生描述所述可控系统的状态模型;以及基于描述所述可控系统的状态模型和所述可控系统的组件的当前状态从影响所述可控系统的组件的状态的动作集合中选择(9)要应用于所述可控系统的组件的动作。5.根据权利要求4所述的方法,其中所述方法还包括以下步骤:

检测(10)所述可控系统的组件的当前状态。6.一种用于控制可控系统的组件的方法,其中所述方法(1)包括以下步骤:

通过根据权利要求4或5所述的用于从影响可控系统的组件的状态的动作集合中选择要应用于所述可控系统的组件的动作的方法来选择要应用于所述可控系统的组件的动作;以及

将所选择的动作应用(11)于所述可控系统的组件。7.一种用于产生描述可控系统的状态模型的控制设备,其中所述控制设备(23)具有接收单元(26),用于接收关于所述可控系统的组件的状态和影响所述可控系统的组件的所述状态的动作之间的关系的信息,其中所述信息形成所述状态模型的至少一部分,选择单元(27),所述...

【专利技术属性】
技术研发人员:F
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1