用于产生描述可控系统的状态模型的方法技术方案

技术编号：37414123 阅读：9 留言：0更新日期：2023-04-30 09:38

本发明专利技术涉及一种用于产生描述可控系统的状态模型的方法，其中所述方法包括以下步骤：提供所述状态模型的至少一部分；从动作集合中选择（3）动作；从所述组件的第二状态开始，通过将来自所述动作集合的每个动作连续应用于所述组件来模拟（5）所述组件的进一步状态，其中针对每次向所述组件应用一个动作分别确定奖励；基于所确定的奖励优化（6）所述状态模型的所述至少一部分，其中基于用于减小方差的方法和所确定的奖励的最大值来优化所述状态模型的所述至少一部分；以及将所选择的动作和所述第二状态添加（7）到所述状态模型的所述至少一部分。部分。部分。

全部详细技术资料下载

【技术实现步骤摘要】
用于产生描述可控系统的状态模型的方法

[0001]本专利技术涉及一种用于产生描述可控系统的状态模型的方法，一种基于产生的状态模型选择要应用于所述可控系统的组件的动作的方法，以及一种基于选择的动作控制所述可控系统的方法。

技术介绍

[0002]可控系统应理解为这样一种系统，其可以被控制为使得可以通过应用合适的调节信号或通过应用合适的任务或动作，在有限的时间内将所述系统的状态或所述系统的一个或多个组件的状态转换为新状态，特别是从选择的输入状态转换为选择的输出状态。
[0003]由状态、状态过渡和动作组成的可控系统的行为模型也称为状态模型或所述可控系统的系统描述。在此，这些状态例如可以是可控系统的一个或多个组件的性质或表征组件状态的其他信息，例如关于所述可控系统的一个或多个组件的利用率的信息。这些动作还可以是可由所述可控系统执行的用于控制所述可控系统的功能或任务，其中所述状态过渡象征在所述动作之一应用于所述可控系统的组件之后所述组件的状态变化。
[0004]这种状态模型尤其用于学习或象征在从可控系统的组件的特定状态开始应用动作时所述可控系统的行为，其中然后基于所述状态模型例如可以选择具有达到选择的状态的目标的一个或多个动作。
[0005]然而，在此可能被证明困难的是，选择必须执行的动作以产生选择或期望的状态。从而往往可以通过动作的各种组合来达到期望的状态。还可能出现以下状况，其中在处理向所述可控系统的组件的动作分配期间添加要由组件处理的进一步任务或动作。
[0006]在此已知尝试基于诸如蒙特...

【技术保护点】

【技术特征摘要】
1.一种用于产生描述可控系统的状态模型的方法，其中所述方法包括以下步骤：提供（2）关于所述可控系统的组件的状态和影响所述可控系统的组件的所述状态的动作之间的关系的信息，其中所述信息形成所述状态模型的至少一部分；从影响所述可控系统的组件的状态的动作集合中选择（3）动作；将所选择的动作应用（4）于所述可控系统的组件，其中所述可控系统的组件在应用所选择的动作之前处于第一状态，并且在应用所选择的动作之后处于第二状态；从所述可控系统的组件的所述第二状态开始模拟（5）所述可控系统的组件的进一步状态，其中模拟进一步状态包括将来自影响所述可控系统的组件的状态的所述动作集合中的每个动作连续应用于所述可控系统的组件，其中针对每次向所述可控系统的组件应用一个动作分别确定奖励；基于所确定的奖励优化（6）所述状态模型的所述至少一部分，其中基于用于减小方差的方法和所确定的奖励的最大值来优化所述状态模型的所述至少一部分；以及将所选择的动作和所述第二状态添加（7）到所述状态模型的所述至少一部分。2.根据权利要求1所述的方法，其中所述方法还包括以下步骤：
‑
探测（8）所述可控系统的组件的所述第二状态。3.根据权利要求1或2所述的方法，其中基于用于减小方差的方法和所确定的奖励的最大值来优化（6）所述状态空间的所述至少一部分包括基于控制变量和所确定的奖励的最大值来优化所述状态模型的所述至少一部分。4.一种用于从影响可控系统的组件的状态的动作集合中选择要应用于所述可控系统的组件的动作的方法，其中所述方法包括以下步骤：由根据权利要求1至3中任一项所述的用于产生描述可控系统的状态模型的方法来产生描述所述可控系统的状态模型；以及基于描述所述可控系统的状态模型和所述可控系统的组件的当前状态从影响所述可控系统的组件的状态的动作集合中选择（9）要应用于所述可控系统的组件的动作。5.根据权利要求4所述的方法，其中所述方法还包括以下步骤：
‑
检测（10）所述可控系统的组件的当前状态。6.一种用于控制可控系统的组件的方法，其中所述方法（1）包括以下步骤：
‑
通过根据权利要求4或5所述的用于从影响可控系统的组件的状态的动作集合中选择要应用于所述可控系统的组件的动作的方法来选择要应用于所述可控系统的组件的动作；以及
‑
将所选择的动作应用（11）于所述可控系统的组件。7.一种用于产生描述可控系统的状态模型的控制设备，其中所述控制设备（23）具有接收单元（26），用于接收关于所述可控系统的组件的状态和影响所述可控系统的组件的所述状态的动作之间的关系的信息，其中所述信息形成所述状态模型的至少一部分，选择单元（27），所述...

【专利技术属性】
技术研发人员：F，
申请(专利权)人：罗伯特，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人