用于强化学习（RL）系统的状态工程的方法、计算机程序产品和RL系统技术方案

技术编号：37309054 阅读：29 留言：0更新日期：2023-04-21 22:52

所描述的发明专利技术集中于利用关于强化学习RL智能体的性能的信息来实现对编码器的更新。这使得重点不仅放在提高RL智能体的性能上，而且放在确保编码中的数据是所需的，并且具有RL智能体学习的最佳形式，从而降低复杂性并提高学习速度。习速度。习速度。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于强化学习(RL)系统的状态工程的方法、计算机程序产品和RL系统

[0001]本专利技术致力于通过将强化学习(RL)系统与自动编码器耦合来提供一种用于该系统的特定和自动状态工程的方法。这允许强化学习应用于复杂的环境和状态空间，而不需要大的强化学习网络，这是因为给强化学习智能体提供整个状态，并且不需要手动设计具有决策所需的可能特征的状态输入。
[0002]特别是对于非常大的状态大小，例如，具有100,000个值，给强化学习智能体明确地提供所有信息是不现实的。关于手动设计的特征工程，很难预先知道哪些信息对正确的决策最有用。
[0003]因此，需要一种允许对状态输入进行自适应编码的解决方案，这根据强化学习智能体的性能来改变所提供的信息，从而提取与特定情况相关的信息，而不需要大量的人工状态工程。

技术介绍

[0004]现有技术包括以完整状态的形式向智能体馈送所有信息，可能还包括决策制定不需要的信息，导致网络的次优性能。
[0005]在并非所有信息都被直接馈送到网络的情况下，必须执行人工状态工程来识别和分离所...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于强化学习系统的自动状态工程的方法，其中，自动编码器(A)耦合到强化学习网络(RLN)，所述自动编码器(A)包含编码器部分(E)和解码器部分(D)，所述方法具有以下训练步骤：步骤1(TL1)：所述自动编码器(A)的训练，步骤2(TL2)：用表示所述强化学习网络或训练的质量的值(V)训练所述强化学习网络(RLN)，步骤3(TL3)：通过使用步骤2的结果重新训练编码器(E)。2.根据权利要求1所述的方法，其特征在于，迭代地执行步骤1和步骤2，在强化学习智能体(AG)的训练的定义数量的步骤之后在步骤1和步骤2之间切换。3.根据权利要求1或2所述的方法，其特征在于，所述强化学习网络(RLN)具有至少两个强化学习智能体(AG)实例，每个强化学习智能体(AG)具有用于训练的优化目标，其中，所述自动编码器使用关于智能体(AG)的条件信息，所述条件信息将所述智能体的相应优化目标的编码分离。4.根据前述权利要求中任一项所述的方法，用于柔性制造系统(EMS)的自学习制造调度，以生产至少一个产品(1)，并且针对所述产品(1)的优化目标应用训练，其中，
‑
所述制造系统由相互连接的处理实体(M1，...M6)组成，

【专利技术属性】
技术研发人员：丹妮尔，
申请(专利权)人：西门子股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人