利用合成环境改进强化学习的设备和方法技术

技术编号：34170716 阅读：74 留言：0更新日期：2022-07-17 10:42

提供了利用合成环境改进强化学习的设备和方法。一种用于学习策略（）的计算机实现的方法和/或用于学习合成环境的方法，其中所述策略被配置为控制智能体，包括以下步骤：提供合成环境参数（）和真实环境（）以及策略群体。后续，重复以下步骤达预定次数的重复作为第一循环：对策略群体中的每个策略实行后续步骤作为第二循环：用随机噪声干扰合成环境参数（）；针对受干扰的合成环境训练策略达第一给定数量的步骤；通过确定训练策略的奖励，针对真实环境评估训练策略；取决于噪声和奖励更新合成环境参数。最后，输出针对真实环境具有最高奖励或针对受干扰的合成环境具有最佳训练策略的评估策略（）。）。）。

全部详细技术资料下载

【技术实现步骤摘要】
利用合成环境改进强化学习的设备和方法

[0001]本专利技术涉及用于通过学习合成环境来针对智能体（agent）进行改进策略学习的方法，以及用于通过该策略操作致动器的方法、计算机程序和机器可读存储介质、分类器、控制系统以及训练系统。

技术介绍

[0002]作者Such、Felipe Petroski等人的“Generative teaching networks: Accelerating neural architecture search by learning to generate synthetic training data”（International Conference on Machine Learning. PMLR，2020）的出版物（在线可获得：https://arxiv.org/abs/1912.07768）公开了一种称为“生成型教学网络”（GTN）的通用学习框架，其由两个神经网络组成，这两个神经网络在双层优化中共同作用以产生小的合成数据集。
[0003]本专利技术的优点与作者Such等人的...

【技术保护点】

【技术特征摘要】
1.一种用于学习被配置为控制智能体的策略（）的计算机实现的方法，包括以下步骤：提供合成环境参数（）和真实环境（）以及初始化策略的群体；重复后续步骤达预定次数的重复作为第一循环：（1）对策略群体中的每个策略实行后续步骤作为第二循环：（a）用随机噪声干扰合成环境参数（）；（b）针对取决于受干扰的合成环境参数构建的合成环境（）训练策略；（c）确定通过训练策略实现的奖励，所述奖励被应用于真实环境（）上；（2）取决于第二循环的训练策略的奖励来更新合成环境参数（）；和输出训练策略的策略（），所述策略（）针对真实环境（）实现最高奖励或者在针对合成环境（）的训练期间实现最高奖励。2.根据权利要求1所述的方法，其中合成环境参数（）的更新通过随机梯度估计基于第二循环中训练策略的确定奖励加权和来实行。3.根据权利要求1或2所述的方法，其中，第二循环的步骤、特别是策略的训练对于策略群体中的策略并行实行。4.根据权利要求1至3中任一项所述的方法，其中在针对合成环境（）训练每个策略之前对其随机初始化。5.根据权利要求1至4中任一项所述的方法，其中，如果在训练的给定数量的先前情节中累积奖励的移动平均值的改变小于给定阈值，则终止训练策略的步骤。6.根据权利要求1至5中任一项所述的方法，其中实行超参数优化，来对用于训练策略的训练方法和/或用于更新合成环境参数的优化方法的超参数进行...

【专利技术属性】
技术研发人员：T，
申请(专利权)人：罗伯特，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人