【技术实现步骤摘要】
基于分层次和草图式归纳逻辑的迁移强化学习方法及系统
[0001]本专利技术涉及一种迁移强化学习方法,尤其涉及一种基于分层次和草图式归纳逻辑的迁移强化学习方法,并进一步涉及采用了该基于分层次和草图式归纳逻辑的迁移强化学习方法的迁移强化学习系统。
技术介绍
[0002]深度强化学习(Deep Reinforcement Learning,简称DRL)在许多场景都取得了重大的突破。然而,由于深度神经网络“黑箱算法”的现状,DRL模型在长时间规划问题上,如何提高其泛化能力和可解释性依然是一个极大的问题,并且这个问题也导致了传统的DRL方法在相似任务间进行迁移学习难度较大;目前已有的迁移强化学习算法中,为了判断任务的相似性都需要额外的学习成本,对学习速率的提升必然产生一定影响,使得迁移强化学习效果不佳。为了解决这个问题,目前提出了基于草图式非严格的归纳逻辑编程(Inductive Logic Programming,ILP)框架,简称草图式归纳逻辑框架,即在下文中将草图式非严格的归纳逻辑编程简称为草图式归纳逻辑,它合成了明确揭示因果关系的结构化程序,提高了策略的可解释性与泛化能力。但对于草图式归纳逻辑框架来说,都存在一个共性,就是需要在训练开始前,根据提供的描述任务状态所需的原子集合,然后根据这些原子集合生成任务潜含的逻辑片段,如果原子数目过多将出现维度灾难的问题,因此,也不能很好地直接应用于迁移强化学习方法中。
技术实现思路
[0003]本专利技术所要解决的技术问题是需要提供一种基于分层次和草图式归纳逻辑的迁 ...
【技术保护点】
【技术特征摘要】
1.一种基于分层次和草图式归纳逻辑的迁移强化学习方法,其特征在于,包括以下步骤:步骤S1,提供用于描述状态和动作的原子集合,然后根据原子集合成成对应的逻辑片段,通过策略梯度调整所述逻辑片段中每条逻辑子程序的权重;步骤S2,通过近端策略优化算法初始化底层策略;步骤S3,通过使用命令式的控制流模块分别实现上层归纳逻辑编程的建模以及底层的深度强化学习;步骤S4,进行多源策略迁移强化学习,对策略更新后和策略更新前的逻辑片段重合度进行计算,为获取的逻辑片段重合度加上重合度权重,然后将所述重合度权重加入至平均探索收益,以实现迁移强化学习。2.根据权利要求1所述的基于分层次和草图式归纳逻辑的迁移强化学习方法,其特征在于,所述步骤S1包括以下子步骤:步骤S101,提供用于描述状态的信息原子和用于描述动作的状态原子,通过给定模版如∶right()
←
current(X,Y),succ(Z,Y)将所述信息原子和状态原子生成对应的逻辑片段;其中,right()表示原子集合推导的动作执行,current(X,Y)表示用于描述状态的信息原子,succ(Z,Y)表示用于描述动作的状态原子;步骤S102,通过一步策略梯度公式调整所述逻辑片段中每条逻辑子程序的权重,其中,θ
′
表示更新后的策略函数的参数,θ表示更新前的策略函数的参数,α和γ分别用于表示预先设置的折扣因子,表示求导,π
θ
表示策略函数,表示动作价值函数,H(π
θ
)表示信息熵。3.根据权利要求2所述的基于分层次和草图式归纳逻辑的迁移强化学习方法,其特征在于,所述步骤S1中,先通过公式M
*
=(M,∪,A,f)表示合成任务的决策过程,其中,M
*
表示决策结果,M表示马尔可夫决策的表达形式,∪表示状态原子的集合,A表示动作原子的集合,f表示解释器;然后基于状态原子的集合∪和动作原子的集合A生成符合任务的逻辑子程序语句,对逻辑子程序语句增加预设的权重,得到初始的任务策略。4.根据权利要求2所述的基于分层次和草图式归纳逻辑的迁移强化学习方法,其特征在于,所述步骤S1中,在每轮迭代时,根据公式R
(n)
=r
t+1
+γr
t+2
+
…
+γ
n
‑2r
t+n
‑1+γ
n
‑1Q(S
t+n
,a
t+n
)获取一个周期采用的动作所得到的回报R
(n)
,其中,r
t+1
表示t+1步的探索奖励值,γ表示折扣因子,n表示步数,Q(S
t+n
,a
t+n
)表示t+n步时该动作对应的Q值。5.根据权利要求1至4任意一项所述的基于分层次和草图式归纳逻辑的迁移强化学习方法,其特征在于,所述步骤S2中,通过第二策略梯度更新公式方法,其特征在于,所述步骤S2中,通过第二策略梯度更新公式更新底层策略,其中,θ
′
表示更新权重后的策略函数参数,θ表示策略函数参数,α和γ分别用于表示预先设置的折扣因子,R
θ
表示对应的探索奖励期望值,表示回报期望,表示求导,H(π
θ
)表示信息熵,R
τ
表示与环境交互的收益,P
θ
(τ)表示对应序列的概率分布,P(τ)和Q(τ)分别表示策略更新后和策略更新前所对应序列的概率分布。6.根据权利要求1至4任意一项所述的基于分层次和草图式归纳逻辑的迁移强化学习
方法,其特征在于,所述步骤S3中,根据控制流将任务划分为用于控制目标的目标指向模块、用于控制交互的动作模块以及用于控制方向的行动模块;在选择目标时根据完成最终目标的条件信息匹配所述目标指向模块,在控制走位时根据与目标之间的地形信息匹配所述行动模块,在控制动作时根据目标类型信息匹配所述动作模块;并将各模块学习的样本进行分割处理,每个模块保存相关的样本数据,并根据对应的样本数据进行相对应策略的学习;学习后得到的模型加入至备用策略库之中。7.根据权利要求1至4任意一项所述的基于分层次和草图式归纳逻辑的迁移强化学习方法,其特征在于,所述步骤S4包括以下子...
【专利技术属性】
技术研发人员:郑岩,郝建业,张豪,文永明,余跃,
申请(专利权)人:天津大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。