一种智能体策略生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38130364 阅读:7 留言:0更新日期:2023-07-08 09:37
本申请涉及一种智能体策略生成方法、装置、计算机设备和存储介质,构建了专家缓存模块和在线缓存模块,分别用于存储次优示例样本和次优示例以外的样本;在仅利用单条次优示例轨迹的基础上,还将探索过程中采集到的较好的示例轨迹加入专家缓存模块中,以充分挖掘智能体自身生成的较好历史轨迹,不仅充分利用了次优示例轨迹,而且随着较好历史轨迹的加入,还能摆脱次优示例的性能限制,使得策略网络能从专家缓存模块中学习到更好的策略参数。此外,在将示例轨迹加入专家缓存模块之前进行奖励重标记,赋予次优示例和较优示例以正奖励,通过结合采样奖励重标记以及基于预测模型的探索方法来避免后期过多依赖历史轨迹,而陷入局部次优。部次优。部次优。

【技术实现步骤摘要】
一种智能体策略生成方法、装置、计算机设备和存储介质


[0001]本申请涉及智能体
,特别是涉及一种智能体策略生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]在强化学习问题中,智能体通常会不断与环境进行交互,并以最大化环境反馈的累积奖励为目标,更新自身的行为策略。然而,在许多复杂情况下,环境往往很少会反馈奖励,进而导致智能体无法获取到有效的信息来更新自身行为策略,这种很难直接从环境中获取到奖励的问题即为稀疏奖励问题。
[0003]在奖励通常是延迟且稀疏的现实世界应用时,难以通过随机探索方法获得包含有效奖励信息的状态

动作样本,导致需要通过昂贵代价来产生大量交互数据,且甚至会出现无法学习到有效策略的情况。为提高采样效率,相关工作尝试在深度强化学习(DRL)的学习过程中引入监督学习的方式基于大量专家示例轨迹数据模仿专家策略来加速其学习过程,但是其受限于专家示例的性能表现,此外现实世界应用难以提供大量的专家示例轨迹,仅能提供少量次优的轨迹数据。
[0004]有相关工作采用生成对抗模型学习(GAIL)的方法来利用专家示例来解决奖励稀疏的现实应用问题;但是其奖励函数和策略是交替进行学习的,这种双循环学习的架构,存在较大的不稳定性和脆弱性,且需要大量的交互数据。有相关工作在GAIL的架构基础上采用固定奖励函数的方式,将奖励学习和强化学习的交替循环简化为了强化学习的单循环,避免了双循环学习的架构带来的不稳定性,大大提高了训练效率,但是其和GAIL一样受限于专家示例的性能,无法有效应对次优示例的情况。
[0005]有相关工作采用自模仿学习的思路来解决稀疏奖励的现实应用问题,具体来说,存储在交互过程中发现的较优的历史轨迹,并从中进行学习,但是该类算法易受历史轨迹的影响,陷入局部次优。
[0006]有相关工作在DRL算法的基础上考虑改造缓存模块来利用最优示例数据或者次优示例数据,但是为了避免次优示例的影响,仅仅将其简单地用于特征学习阶段,除了存在需要大量示例的缺点,还难以应对复杂的难探索环境。

技术实现思路

[0007]基于此,有必要针对上述技术问题,提供一种智能体策略生成方法、装置、计算机设备和存储介质。
[0008]一种智能体策略生成方法,所述方法包括:根据初始交互轨迹对预先构建的在线缓存模块进行初始化;所述初始交互轨迹是指未经训练的策略网络直接与环境进行交互产生的交互轨迹;获取单条次优示例轨迹,对所述次优示例轨迹进行奖励重标记,根据得到的重标记示例轨迹对预先构建的专家缓存模块进行初始化;其中,奖励重标记的步骤包括:将示例
轨迹中的前(N

1)个样本的环境奖励值替换为对应的更新奖励值;其中,前(N

1)个样本中每一样本的更新奖励值一致且小于最后一个样本的环境奖励值;N为专家缓存模块中周期奖励值排名前m的示例轨迹的平均长度,m为预设的超参数;在指定的预训练步数下,从初始化在线缓存模块和初始化专家缓存模块中抽取样本,完成策略网络的预训练;当训练步数大于指定的预训练步数时,智能体采用策略网络与环境进行交互,得到交互轨迹;当所述交互轨迹的周期奖励值不小于设定值时,对所述交互轨迹进行奖励重标记,得到重标记交互轨迹并存入专家缓存模块;其中,所述周期奖励值为交互轨迹中所有样本的环境奖励值之和;当所述交互轨迹的周期奖励值小于设定值时,将所述交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块;从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,利用更新好的策略网络生成智能体的行为策略。
[0009]一种智能体策略生成装置,所述装置包括:在线缓存模块初始化模块,用于根据初始交互轨迹对预先构建的在线缓存模块进行初始化;所述初始交互轨迹是指未经训练的策略网络直接与环境进行交互产生的交互轨迹;专家缓存模块初始化模块,用于获取单条次优示例轨迹,对所述次优示例轨迹进行奖励重标记,根据得到的重标记示例轨迹对预先构建的专家缓存模块进行初始化;其中,奖励重标记的步骤包括:将示例轨迹中的状态

动作序列中的前(N

1)个样本的环境奖励值替换为对应的更新奖励值;其中,前(N

1)个样本中每一样本的更新奖励值一致且小于最后一个样本的环境奖励值;所述更新奖励值是根据样本原本的环境奖励值得到的;N为专家缓存模块中周期奖励值排名前m的示例轨迹的平均长度,m为预设的超参数;策略网络预训练模块,用于在指定的预训练步数下,从初始化在线缓存模块和初始化专家缓存模块中抽取样本,完成策略网络的预训练;交互模块,用于当训练步数大于指定的预训练步数时,智能体采用策略网络与环境进行交互,得到交互轨迹;专家缓存模块更新模块,用于当所述交互轨迹的周期奖励值不小于设定值时,对所述交互轨迹进行奖励重标记,得到重标记交互轨迹并存入专家缓存模块;其中,所述周期奖励值为交互轨迹中所有样本的环境奖励值之和;在线缓存模块更新模块,用于当所述交互轨迹的周期奖励值小于设定值时,将所述交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块;行为策略生成模块,用于从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,利用更新好的策略网络生成智能体的行为策略。
[0010]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法中的步骤。
[0011]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法中的步骤。
[0012]上述智能体策略生成方法、装置、计算机设备和存储介质,构建了专家缓存模块和在线缓存模块,分别用于存储次优示例样本和次优示例以外的样本;由于现实世界应用仅能提供少量次优的示例轨迹数据,本方案在仅利用单条次优示例轨迹的基础上,还将探索过程中采集到的较好的示例轨迹加入专家缓存模块中,以充分挖掘智能体自身生成的较好历史轨迹,不仅充分利用了次优示例轨迹,而且随着较好历史轨迹的加入,还能摆脱次优示例的性能限制,使得策略网络能从专家缓存模块中学习到更好的策略参数。此外,本方案在将示例轨迹加入专家缓存模块之前进行奖励重标记,赋予次优示例和较优示例以正奖励,可以有效应对极度稀疏奖励的环境;鲁棒性强,可以应对不同等级性能表现的次优示例;能够有效利用次优示例,提高采样效率。此外,本专利技术结合采样奖励重标记以及基于预测模型的探索方法来避免后期过多依赖历史轨迹,而陷入局部次优。
附图说明
[0013]图1为一个实施例中智能体策略生成方法的流程示意图;图2为一个实施例中本方法的整体框架示意图;图3为一个实施例中计算机设备的内部结构图。
具体实施方式
[0014]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0015]在一个实施例中,如图1所示,提供了一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能体策略生成方法,其特征在于,所述方法包括:根据初始交互轨迹对预先构建的在线缓存模块进行初始化;所述初始交互轨迹是指未经训练的策略网络直接与环境进行交互产生的交互轨迹;获取单条次优示例轨迹,对所述次优示例轨迹进行奖励重标记,根据得到的重标记示例轨迹对预先构建的专家缓存模块进行初始化;其中,奖励重标记的步骤包括:将示例轨迹中的前(N

1)个样本的环境奖励值替换为对应的更新奖励值;其中,前(N

1)个样本中每一样本的更新奖励值一致且小于最后一个样本的环境奖励值;N为专家缓存模块中周期奖励值排名前m的示例轨迹的平均长度,m为预设的超参数;在指定的预训练步数下,从初始化在线缓存模块和初始化专家缓存模块中抽取样本,完成策略网络的预训练;当训练步数大于指定的预训练步数时,智能体采用策略网络与环境进行交互,得到交互轨迹;当所述交互轨迹的周期奖励值不小于设定值时,对所述交互轨迹进行奖励重标记,得到重标记交互轨迹并存入专家缓存模块;其中,所述周期奖励值为交互轨迹中所有样本的环境奖励值之和;当所述交互轨迹的周期奖励值小于设定值时,将所述交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块;从更新后的专家缓存模块和在线缓存模块中抽取样本更新策略网络,利用更新好的策略网络生成智能体的行为策略。2.根据权利要求1所述的方法,其特征在于,所述更新奖励值的计算步骤包括:根据示例轨迹的最后一个样本的环境奖励值,以及当前策略下获取的预设数量示例轨迹的平均周期奖励值,计算得到示例轨迹中前(N

1)个样本的更新奖励值:;其中为更新奖励值,为示例轨迹的最后一个样本的环境奖励值,为预设数量示例轨迹的平均周期奖励值。3.根据权利要求1所述的方法,其特征在于,所述设定值是专家缓存模块中的最低周期奖励值。4.根据权利要求1所述的方法,其特征在于,所述探索模块包括编码器、环境模型和反向动作预测模型;所述探索模块和所述策略网络共用一个环境模型;所述环境模型是通过专家缓存模块中的样本训练的;将所述交互轨迹输入探索模块中处理,为样本赋予探索奖励值后存入在线缓存模块包括:通过编码器将所述交互轨迹中的状态

动作样本进行编码,得到编码后的当前状态

动作特征;将所述编码后的当前状态

动作特征输入环境模型,得到下一时刻的预测状态特征;将所述预测状态特征和对应的编码后的当前状态特征输入反向动作预测模型,得到预
测的当前动作特征;根据预测的当前动作特征和编码后的当前动作特征的差异调整环境模型的网络参数,以及将下一...

【专利技术属性】
技术研发人员:曾俊杰方淇曾云秀秦龙胡越徐浩添张琪艾川黄鹤松许凯尹全军
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1