面向分层强化学习的多元子策略生成模型的训练方法技术

技术编号:39719279 阅读:9 留言:0更新日期:2023-12-17 23:25
本发明专利技术提供一种面向分层强化学习的多元子策略生成模型的训练方法,方法包括:确定初始分层强化学习模型;基于所述初始分层强化学习模型选择进行强化学习时的各子策略;基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失;基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型

【技术实现步骤摘要】
面向分层强化学习的多元子策略生成模型的训练方法


[0001]本专利技术涉及人工智能
,尤其涉及一种面向分层强化学习的多元子策略生成模型的训练方法


技术介绍

[0002]近几年来,分层强化学习
(Hierarchical Reinforcement Learning

HRL)
在多层决策

稀疏奖励

长跨度控制任务中取得了出色的表现
。HRL
算法大多采用两层架构,上层策略又称为主策略,下层策略又称子策略

子策略既可由人工定义,也可以由算法自动生成

人工定义的子策略往往十分依赖人类专家对任务的理解,大多缺乏通用性,或依赖于特定领域的知识和精心设计的辅助目标

[0003]自动发现子策略算法则往往在训练后期出现所有子策略退化为一个子策略的情况,给训练带来了很大难度

已有的子策略多样性增强方法大都利用信息论目标,通过最大化互信息或
JS
散度
(Jensen

Shannon divergence)
来设计多样性正则化器或进行奖励重塑

[0004]然而,基于信息论目标的子策略多样性增强方法受限于互信息或
JS
散度上限,这限制了学习到的子策略的多样性


技术实现思路

[0005]本专利技术提供一种面向分层强化学习的多元子策略生成模型的训练方法,用以解决现有技术中基于信息论目标的子策略多样性增强方法受限于互信息或
JS
散度上限,这限制了学习到的子策略的多样性的缺陷

[0006]本专利技术提供一种面向分层强化学习的多元子策略生成模型的训练方法,包括:
[0007]确定初始分层强化学习模型;
[0008]基于所述初始分层强化学习模型选择进行强化学习时的各子策略;
[0009]基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失;
[0010]基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型

[0011]根据本专利技术提供的一种面向分层强化学习的多元子策略生成模型的训练方法,所述基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失之前,还包括:
[0012]获取所述初始分层强化学习模型进行强化学习时选择的各子策略的策略网络对应的动作分布;
[0013]对所述各子策略的策略网络对应的动作分布进行高斯处理,得到所述各子策略的策略网络对应的高斯动作分布;
[0014]基于所述各子策略的策略网络对应的高斯动作分布,确定所述各子策略之间的瓦
式距离

[0015]根据本专利技术提供的一种面向分层强化学习的多元子策略生成模型的训练方法,所述基于所述各子策略的策略网络对应的高斯动作分布,确定所述各子策略之间的瓦式距离,包括:
[0016]在连续动作空间任务中,使用同一随机数对所述高斯动作分布进行采样,得到所述各子策略的策略网络对应的动作;
[0017]将所述各子策略的策略网络对应的动作映射至行为嵌入空间中,并利用代价函数确定所述各子策略之间的瓦式距离

[0018]根据本专利技术提供的一种面向分层强化学习的多元子策略生成模型的训练方法,所述基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型,包括:
[0019]获取所述初始分层强化学习模型进行强化学习时选择的各子策略的策略网络对应的子策略策略网络的第二损失;
[0020]基于所述第二损失和所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型

[0021]根据本专利技术提供的一种面向分层强化学习的多元子策略生成模型的训练方法,所述基于所述第二损失和所述第一损失,对所述初始分层强化学习模型进行参数迭代,包括:
[0022]基于如下公式,对所述初始分层强化学习模型进行参数迭代:
[0023]L
new
(
θ
π
k
)

L
old
(
θ
π
k
)

α
WD
min
(
π
k
)
[0024][0025]其中,
L
new
(
θ
π
k
)
表示参数为
θ
π
k
的子策略策略网络的新损失,
L
old
(
θ
π
k
)
表示参数为
θ
π
k
的子策略策略网络的旧的第二损失,
α
表示超参数,
α
用于调整子策略策略网络正则项所占权重,
WD
min
(
π
k
)
表示正则化项,表示子策略策略网络的第一损失,
π
k
表示选中的第一子策略,
π
l
表示选中的第二子策略,表示第一子策略
π
k
的前推分布,表示第二子策略
π
l
的前推分布,
Φ
表示从动作空间到行为嵌入空间的映射

[0026]根据本专利技术提供的一种面向分层强化学习的多元子策略生成模型的训练方法,所述初始分层强化学习模型包括主策略策略网络

子策略策略网络

主策略价值网络和子策略价值网络

[0027]本专利技术还提供一种面向分层强化学习的多元子策略生成模型的训练装置,包括:
[0028]确定单元,用于确定初始分层强化学习模型;
[0029]选择单元,用于基于所述初始分层强化学习模型选择进行强化学习时的各子策略;
[0030]确定策略网络损失单元,用于基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失;
[0031]参数迭代单元,用于基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型

[0032]本专利技术还提供一种电子设备,包括存储器

处理器及存储在存储器上并可在处理
器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述面向分层强化学习的多元子策略生成模型的训练方法

[0033]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向分层强化学习的多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,包括:确定初始分层强化学习模型;基于所述初始分层强化学习模型选择进行强化学习时的各子策略;基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失;基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型
。2.
根据权利要求1所述的面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,所述基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失之前,还包括:获取所述初始分层强化学习模型进行强化学习时选择的各子策略的策略网络对应的动作分布;对所述各子策略的策略网络对应的动作分布进行高斯处理,得到所述各子策略的策略网络对应的高斯动作分布;基于所述各子策略的策略网络对应的高斯动作分布,确定所述各子策略之间的瓦式距离
。3.
根据权利要求2所述的面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,所述基于所述各子策略的策略网络对应的高斯动作分布,确定所述各子策略之间的瓦式距离,包括:在连续动作空间任务中,使用同一随机数对所述高斯动作分布进行采样,得到所述各子策略的策略网络对应的动作;将所述各子策略的策略网络对应的动作映射至行为嵌入空间中,并利用代价函数确定所述各子策略之间的瓦式距离
。4.
根据权利要求1所述的面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,所述基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型,包括:获取所述初始分层强化学习模型进行强化学习时选择的各子策略的策略网络对应的子策略策略网络的第二损失;基于所述第二损失和所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型
。5.
根据权利要求4所述的面向分层强化学习的多元子策略生成模型的训练方法,其特征在于,所述基于所述第二损失和所述第一损失,对所述初始分层强化学习模型进行参数迭代,包括:基于如下公式,对所述初始分层强化学习模型进行参数迭代:
L
new
(
θ
π
k
)

L
ol
(
θ
π
k
)

α
WD
min
(
π
k
)
其中,
L
new
(
θ
π
...

【专利技术属性】
技术研发人员:李浩锐梁嘉琦孟斌斌李林静曾大军
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1