【技术实现步骤摘要】
面向分层强化学习的多元子策略生成模型的训练方法
[0001]本专利技术涉及人工智能
,尤其涉及一种面向分层强化学习的多元子策略生成模型的训练方法
。
技术介绍
[0002]近几年来,分层强化学习
(Hierarchical Reinforcement Learning
,
HRL)
在多层决策
、
稀疏奖励
、
长跨度控制任务中取得了出色的表现
。HRL
算法大多采用两层架构,上层策略又称为主策略,下层策略又称子策略
。
子策略既可由人工定义,也可以由算法自动生成
。
人工定义的子策略往往十分依赖人类专家对任务的理解,大多缺乏通用性,或依赖于特定领域的知识和精心设计的辅助目标
。
[0003]自动发现子策略算法则往往在训练后期出现所有子策略退化为一个子策略的情况,给训练带来了很大难度
。
已有的子策略多样性增强方法大都利用信息论目标,通过最大化互信息或
JS
散度
(Jensen
‑
Shannon divergence)
来设计多样性正则化器或进行奖励重塑
。
[0004]然而,基于信息论目标的子策略多样性增强方法受限于互信息或
JS
散度上限,这限制了学习到的子策略的多样性
。
技术实现思路
[0005]本专利技术提供一种面向分层强化学习的多元子策略生成模 ...
【技术保护点】
【技术特征摘要】
1.
一种面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,包括:确定初始分层强化学习模型;基于所述初始分层强化学习模型选择进行强化学习时的各子策略;基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失;基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型
。2.
根据权利要求1所述的面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,所述基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失之前,还包括:获取所述初始分层强化学习模型进行强化学习时选择的各子策略的策略网络对应的动作分布;对所述各子策略的策略网络对应的动作分布进行高斯处理,得到所述各子策略的策略网络对应的高斯动作分布;基于所述各子策略的策略网络对应的高斯动作分布,确定所述各子策略之间的瓦式距离
。3.
根据权利要求2所述的面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,所述基于所述各子策略的策略网络对应的高斯动作分布,确定所述各子策略之间的瓦式距离,包括:在连续动作空间任务中,使用同一随机数对所述高斯动作分布进行采样,得到所述各子策略的策略网络对应的动作;将所述各子策略的策略网络对应的动作映射至行为嵌入空间中,并利用代价函数确定所述各子策略之间的瓦式距离
。4.
根据权利要求1所述的面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,所述基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型,包括:获取所述初始分层强化学习模型进行强化学习时选择的各子策略的策略网络对应的子策略策略网络的第二损失;基于所述第二损失和所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型
。5.
根据权利要求4所述的面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,所述基于所述第二损失和所述第一损失,对所述初始分层强化学习模型进行参数迭代,包括:基于如下公式,对所述初始分层强化学习模型进行参数迭代:
L
new
(
θ
π
k
)
=
L
ol
(
θ
π
k
)
‑
α
WD
min
(
π
k
)
其中,
L
new
(
θ
π
...
【专利技术属性】
技术研发人员:李浩锐,梁嘉琦,孟斌斌,李林静,曾大军,
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。