基于进化算法的深度强化学习策略网络训练方法技术

技术编号:19426714 阅读:500 留言:0更新日期:2018-11-14 10:52
本发明专利技术公开了一种基于进化算法的深度强化学习策略网络训练方法,可以在整个深度强化学习策略网络的训练优化过程中,依据策略网络所处状态和环境自适应的调整策略网络当前的超参数配置;无需前期大量繁琐的调参和训练过程,只需依据事先定义的各个超参数的取值范围进行随机初始化,即可自动开始策略网络的训练;在整个执行过程中无需人为干预,达到预设训练代数后,即可获得性能优异的策略网络,操作简单,用户体验好。

【技术实现步骤摘要】
基于进化算法的深度强化学习策略网络训练方法
本专利技术涉及深度强化学习
,尤其涉及一种基于进化算法的深度强化学习策略网络训练方法。
技术介绍
深度强化学习(DeepReinforcementLearning)是一种融合了深度学习和强化学习,从而实现直接从感知到动作映射的全新算法。通过输入感知信息(比如视觉),然后通过深度神经网络直接输出动作,中间没有硬编码的过程。深度强化学习结合了深度神经网络和强化学习的优势,可以有效的求解智能体(Agent)在高维复杂问题下的感知决策问题,是通用人工智能领域的前沿研究方向,具有广阔的应用前景。深度强化学习的关键是通过一个Agent不断与环境进行交互来获得样本,从而训练一个深度策略网络,而目前对于深度强化学习策略网络的训练主要还是采用传统有监督的训练方法,即使用一组事先定义好的固定超参数配置作用于整个深度网络的训练周期,而获得这组固定超参数配置的方法主要有:1)网格搜索(gridsearch);2)随机搜索(randomsearch);3)贝叶斯等方法。传统有监督学习提供静态有标签的训练数据,训练集样本和测试集样本是同分布的,因此有监督学习是一个平稳的优化过程。而深度强化学习是通过Agent的自身策略与环境的不断交互来获得训练样本,随着Agent策略不断提升,从环境交互中获得的样本的分布也在不断发生变化,不断会有新的知识出现,因此深度强化学习是一个高动态非平稳的优化过程。由此可见,仍旧采用一组固定超参数作用于整个深度强化学习的优化过程显然并不合理,并且在前期为了获得这组超参数配置需要大量的调参工作和计算代价。专利技术内容本专利技术的目的是提供一种基于进化算法的深度强化学习策略网络训练方法,针对深度强化学习策略网络训练过程中面临的高动态非平稳的特性,该训练方法可以依据当前策略网络所处的训练阶段和环境,自适应的调整自身当前的超参数配置,使得策略网络获得更好的训练,从而最终获得一个性能优异的策略网络。本专利技术的目的是通过以下技术方案实现的:一种基于进化算法的深度强化学习策略网络训练方法,包括:步骤S1、选取待优化超参数;步骤S2、初始化N个策略网络及其各自超参数以及交互的环境,设置进化算法的最大迭代次数为Gen_max,单轮最大梯度优化次数为Step_max;步骤S3、将N个策略网络与各自的环境进行交互,并依据各自当前的超参数进行梯度优化,进行策略提升,并记录当前轮梯度优化次数Step,直到当前轮梯度优化次数达到Step_max,Step置零,进入步骤S4;步骤S4、对N个策略网络进行适应度评估后对N个策略网络及其超参数进行进化算法的相关操作,产生下一代的N个策略网络及其超参数,并记录代数Gen,当Gen小于Gen_max,转至步骤S3;直至达到最大迭代次数Gen_max,选出适应度最大的策略网络。由上述本专利技术提供的技术方案可以看出,可以在整个深度强化学习策略网络的训练优化过程中,依据策略网络所处状态和环境自适应的调整策略网络当前的超参数配置;无需前期大量繁琐的调参和训练过程,只需依据事先定义的各个超参数的取值范围进行随机初始化,即可自动开始策略网络的训练;在整个执行过程中无需人为干预,达到预设训练代数后,即可获得性能优异的策略网络,操作简单,用户体验好。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于进化算法的深度强化学习策略网络训练方法的流程图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于进化算法的深度强化学习策略网络训练方法,其可以在整个深度强化学习策略网络的训练优化过程中,依据策略网络所处状态和环境自适应的调整策略网络当前的超参数配置;无需前期大量繁琐的调参和训练过程,只需依据事先定义的各个超参数的取值范围进行随机初始化,即可自动开始策略网络的训练;在整个执行过程中无需人为干预,达到预设训练代数后,即可获得性能优异的策略网络,操作简单,用户体验好。在介绍上述方法之前先进行如下定义:以表示一个Agent,也即一个策略网络,也即是进化算法中的一个个体,其中pi表示第i个策略网络,其中表示该策略网络当前采用的超参数配置向量其中n表示待调整的超参数个数,θi为第i个策略网络的权值,si为第i个策略网络的性能分数,即适应度值,P表示有N个策略网络(个体)组成的群体,P=[p1,p2,…,pN]。上述方法的流程如图1所示,其主要包括如下步骤:步骤S1、选取待优化超参数。本专利技术实施例中,所选取的待优化超参数为算法超参数,包括:全局学习率、衰减速率、动量系数与损失函数系数。不选取与策略网络结构和拓扑有关的超参数(例如滤波器的个数,卷积层的层数等)。从而避免训练过程中策略网络重启动问题,从而节省计算资源。示例性的,可以选取表1所示的超参数。超参数取值范围全局学习率[1e-41e-3]衰减速率[01]动量系数[1e-41e-5]表1超参数及其初始取值范围需要说明的是,本专利技术在后续的超参数自适应过程中,超参数的取值没有边界限制,表1设定的取值范围,仅用于超参数的初始化步骤。步骤S2、初始化N个策略网络及其各自超参数以及交互的环境,设置进化算法的最大迭代次数为Gen_max,单轮最大梯度优化次数为Step_max。本专利技术实施例中,以OpenAI开源的A2C深度强化学习算法为基准算法,交互环境平台为OpenAI开源的Gym,选用的梯度优化算法为RMSProp。策略网络初始化,按照基准的A2C算法初始化N个策略网络和N个交互环境,N个策略网络分别依据上面的表1进行超参数的初始化。计算单轮最大梯度优化次数Step_max,计算公式为:Step_max=设定的梯度优化总次数÷Gen_max。步骤S3、将N个策略网络与各自的环境进行交互,并依据各自当前的超参数进行梯度优化,进行策略提升并记录当前轮梯度优化次数Step,直到当前轮梯度优化次数达到Step_max,Step置零,进入步骤S4;其中,表示的是N个策略网络的网络权值,RMSProp是一个梯度优化算法,RMSProp会依据当前的超参数配置,进行梯度的优化(也就是更新θi,可以称之为神经网络的训练,在强化学习里面也可称为策略提升)。本步骤为策略网络梯度优化训练,各个策略网络依据各自的策略网络模型和各自当前的超参数配置,并行的与环境进行交互,获得样本,进行梯度优化,直至梯度优化次数达到Step_max,训练停止。步骤S4、对N个策略网络P进行适应度评估后对N个策略网络及其超参数进行进化算法的相关操作,产生下一代新的N个策略网络及其超参数,并记录代数Gen,当Gen小于Gen_max,转至步骤S3;直至达到最大迭代次数Gen_max,选出适应度最大的策略网络。本步骤中进化算本文档来自技高网...

【技术保护点】
1.一种基于进化算法的深度强化学习策略网络训练方法,其特征在于,包括:步骤S1、选取待优化超参数;步骤S2、初始化N个策略网络及其各自超参数以及交互的环境,设置进化算法的最大迭代次数为Gen_max,单轮最大梯度优化次数为Step_max;步骤S3、将N个策略网络与各自的环境进行交互,并依据各自当前的超参数进行梯度优化,进行策略提升,并记录当前轮梯度优化次数Step,直到当前轮梯度优化次数达到Step_max,Step置零,进入步骤S4;步骤S4、对N个策略网络进行适应度评估后对N个策略网络及其超参数进行进化算法的相关操作,产生下一代的N个策略网络及其超参数,并记录代数Gen,当Gen小于Gen_max,转至步骤S3;直至达到最大迭代次数Gen_max,选出适应度最大的策略网络。

【技术特征摘要】
1.一种基于进化算法的深度强化学习策略网络训练方法,其特征在于,包括:步骤S1、选取待优化超参数;步骤S2、初始化N个策略网络及其各自超参数以及交互的环境,设置进化算法的最大迭代次数为Gen_max,单轮最大梯度优化次数为Step_max;步骤S3、将N个策略网络与各自的环境进行交互,并依据各自当前的超参数进行梯度优化,进行策略提升,并记录当前轮梯度优化次数Step,直到当前轮梯度优化次数达到Step_max,Step置零,进入步骤S4;步骤S4、对N个策略网络进行适应度评估后对N个策略网络及其超参数进行进化算法的相关操作,产生下一代的N个策略网络及其超参数,并记录代数Gen,当Gen小于Gen_max,转至步骤S3;直至达到最大迭代次数Gen_max,选出适应度最大的策略网络。2.根据权利要求1所述的一种基于进化算法的深度强化学习策略网络训练方法,其特征在于,所选取的待优化超参数为算法超参数。3.根据权利要求1所述的一种基于进化算法的深度强化学习策略网络训练方法,其特征在于,所述单轮最大梯度优化次数为Step_max的计算公式为:Step_max=设定的梯度优化总次数÷Gen_max。4.根据权利要求1所述的一种基于进化算法的深度强化学习策略网络训练方法,其特征在于,所述步骤S4中进化算法的相关操作包括:选择、交叉与...

【专利技术属性】
技术研发人员:周银达李斌李厚强
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1