【技术实现步骤摘要】
利用合成环境改进强化学习的设备和方法
[0001]本专利技术涉及用于通过学习合成环境来针对智能体(agent)进行改进策略学习的方法,以及用于通过该策略操作致动器的方法、计算机程序和机器可读存储介质、分类器、控制系统以及训练系统。
技术介绍
[0002]作者Such、Felipe Petroski等人的“Generative teaching networks: Accelerating neural architecture search by learning to generate synthetic training data”(International Conference on Machine Learning. PMLR,2020)的出版物(在线可获得:https://arxiv.org/abs/1912.07768)公开了一种称为“生成型教学网络”(GTN)的通用学习框架,其由两个神经网络组成,这两个神经网络在双层优化中共同作用以产生小的合成数据集。
[0003]本专利技术的优点与作者Such等人的 ...
【技术保护点】
【技术特征摘要】
1.一种用于学习被配置为控制智能体的策略()的计算机实现的方法,包括以下步骤:提供合成环境参数()和真实环境()以及初始化策略的群体;重复后续步骤达预定次数的重复作为第一循环:(1)对策略群体中的每个策略实行后续步骤作为第二循环:(a)用随机噪声干扰合成环境参数();(b)针对取决于受干扰的合成环境参数构建的合成环境()训练策略;(c)确定通过训练策略实现的奖励,所述奖励被应用于真实环境()上;(2)取决于第二循环的训练策略的奖励来更新合成环境参数();和输出训练策略的策略(),所述策略()针对真实环境()实现最高奖励或者在针对合成环境()的训练期间实现最高奖励。2.根据权利要求1所述的方法,其中合成环境参数()的更新通过随机梯度估计基于第二循环中训练策略的确定奖励加权和来实行。3.根据权利要求1或2所述的方法,其中,第二循环的步骤、特别是策略的训练对于策略群体中的策略并行实行。4.根据权利要求1至3中任一项所述的方法,其中在针对合成环境()训练每个策略之前对其随机初始化。5.根据权利要求1至4中任一项所述的方法,其中,如果在训练的给定数量的先前情节中累积奖励的移动平均值的改变小于给定阈值,则终止训练策略的步骤。6.根据权利要求1至5中任一项所述的方法,其中实行超参数优化,来对用于训练策略的训练方法和/或用于更新合成环境参数的优化方法的超参数进行...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。