一种基于对手模型和迭代推理的策略识别与重用方法技术

技术编号:28675754 阅读:28 留言:0更新日期:2021-06-02 02:52
本发明专利技术提供了一种基于对手模型和迭代推理的策略识别与重用方法,包括离线学习阶段和在线重用阶段,离线学习阶段通过强化学习算法得到对手当前策略的应对策略并用于构建策略库,获取对手当前行为数据构建对手模型,依托对手模型构建基于效用值的性能模型;在线重用阶段获取效用值和对手行为信息,通过迭代推理估计对手策略,调用策略库中的应对策略进行重用。本发明专利技术引入了回合内信念用于实时修正贝叶斯迭代推理的结果,结合对手模型可以在回合内识别对手策略是否改变,并及时采用最优应对策略;回合内信念的更新仅需要观测对手行为而不依赖效用值函数;本发明专利技术可以识别回合内切换策略、回合间随机切换策略且具有推理能力的对手,并重用最优应对策略。

【技术实现步骤摘要】
一种基于对手模型和迭代推理的策略识别与重用方法
本专利技术涉及多智能体对抗领域,具体公开了一种基于对手模型和迭代推理的策略识别与重用方法。
技术介绍
多智能体系统中,智能体不仅与环境交互,其他参与者的行为也影响智能体的动作选择。特别是面对使用非稳定策略的参与者时,策略选择过程更为困难,因为此时其他参与者也根据智能体的行为调整策略。本专利技术将环境中合作型参与者和对抗型参与者统称为对手。一般情况下,对手维护了一个策略库,并通过策略切换优化其性能。在这种情况下,智能体需要在离线阶段学习对手使用固定策略时的最优应对策略,并在在线重用阶段准确检测对手策略是否发生改变,并重用对应的最优应对策略。对手的策略切换类型可以分为回合间切换和回合内切换,根据其切换方式的复杂程度,又可以分为随机切换和具有推理能力地切换。具体来说,回合间切换就是在本回合结束、下回合开始前切换策略;回合内切换是指在当回合内的某时刻切换策略。随机切换是指对手随机从策略库中选择可用策略;具有推理能力地切换是指对手根据智能体的行为和环境反馈,从策略库中选择对自身有利的策略执行。现有的方法仅单方面关注回合间切换策略、随机切换策略或具有推理能力切换策略的对手,而不能同时应对上述所有切换类型。
技术实现思路
本专利技术目的在提供一种基于对手模型和迭代推理的策略识别与重用方法,以解决现有技术中存在不能同时应对多种切换类型的技术缺陷。为实现上述目的,本专利技术提供了一种基于对手模型和迭代推理的策略识别与重用方法,包括离线学习阶段和在线重用阶段,离线学习阶段通过强化学习算法得到对手当前策略的应对策略并用于构建策略库,获取对手当前行为数据构建对手模型,依托对手模型构建基于效用值的性能模型;在线重用阶段获取效用值和对手行为信息,通过迭代推理估计对手策略,调用策略库中的应对策略进行重用。离线策略学习阶段,由于对手策略固定,现有的深度强化学习算法可以用于学习最优应对策略。例如,现有的深度Q网络(DeepQ-network,DQN)、深度确定性策略梯度法(DeepDeterministicPolicyGradient,DDPG)、近端策略优化算法(ProximalPolicyOptimization,PPO)等在视频游戏、路径规划、机器人控制等任务中得到了广泛应用。此外QMIX、Q值注意力网络(Q-valueAttentionnetwork,Qatten)、双对抗多智能体Q学习(duplexduelingmulti-agentQ-learning,QPLEX)等多智能体深度强化学习算法在多智能体协作学习任务中也取得了一些成果。本专利技术侧重于如何检测对手策略并重用策略库中的最优应对策略,在离线阶段采用PPO算法学习最优应对策略,并将学习结果存入策略库。重用先验策略属于迁移学习(TransferLearing)的范畴。一种方式是选择合适的启发策略用于探索并从零学起(LearningfromScratch),例如π重用探索策略(π-reuseExplorationStrategy)和启发式加速的最小最大Q算法(heuristically-acceleratedMinimax-Q,HAMMQ)。另一种方式是自适应地从多个可用启发策略中选取目标策略,学习过程中逐渐缩小与目标策略间的差距,例如策略迁移PPO算法(PolicyTransferFramework-PPO,PTF-PPO)。此外,还有直接重用已有策略的方法,如带有上下文检测的强化学习算法(ReinforcementLearningwithContextDetection,RL-CD)、深度贝叶斯策略重用算法(DeepBayesianPolicyReuse+,DeepBPR+)、上下文感知策略重用算法(Context-awarePolicyReuse,CAPS)等,这类方法适用于本专利技术中基于策略库选择应对策略的应用场景。在线策略重用阶段,智能体应能综合环境反馈和对手的行为信息实时监测其策略是否发生改变,并根据估计的对手策略从策略库中选取最优应对策略。本专利技术的算法框架如图1所示,分为离线学习阶段和在线重用阶段。采用的技术方案包括以下步骤:离线学习阶段:步骤一,用PPO算法学习最优应对策略,构建最优应对策略库Π。如图1左侧离线学习阶段所示,本专利技术采用PPO算法学习对手使用固定策略时的最优应对策略,并将其存入最优应对策略库。PPO中Actor和Critic的参数分别表示为θ和θv,πθ表示Agent的策略,表示t时刻相对优势函数的估计,其中rt'为从环境中获得的奖励,γ∈(0,1)为折扣因子,表示智能体在状态st的价值函数。PPO中Actor的损失函数可以表示为:其中,CLIP为值域为[1-ε,1+ε]的截断函数,∈∈(0,1),rt(θ)表示新旧策略的概率比,可以表示为:其中,为Agent上一更新时刻的策略,在后续描述中本专利技术将智能体的策略πθ(at|st)缩写为π。Critic的损失函数可以表示为:步骤二,收集步骤一学习过程中对手的行为数据,构建对手模型。现有的研究中,对手模型的构建大多依赖统计对手动作执行的频率。这种方式的显著问题是只能在已访问的状态下预测对手的行为。然而,在实际应用中,对手在相似状态下的行为策略可能是相近的。为了解决上述问题,本专利技术用神经网络估计对手的实际策略。具体来讲,收集在一个回合内对手的行为数据,并用于更新对手模型其中,φ表示对手模型的参数。为表示简洁,在后续描述中,本专利技术将对手模型缩写为假设对手在时间序列K内行为序列为(s0,o0,s1,o1,...,sK,oK),则通过最大化生成该采样序列的对数概率更新对手模型然而,不同的对手行为序列差异可能很大从而导致学习过程中的波动很大,因此,将对手模型的信息熵引入对手模型的损失函数用于提升探索。最终对手模型的损失函数可以表示为:其中,为对手在状态si下执行动作oi的估计概率,ηe∈[0,1]为信息熵常数,在每回合结束时通过最小化损失函数更新对手模型的参数φ。步骤三,基于步骤一中智能体应对策略π∈Π和步骤二中估计的对手策略构建性能模型。本专利技术中,性能模型是指智能体用策略π∈Π,对手使用策略时,智能体一个回合获得累积效用奖励U的概率分布P(U|τ,π)。具体来讲,对于估计的对手策略智能体使用最优应对策略库中的每一个策略π∈Π在环境中多次仿真,收集智能体的累积效用奖励U,并将其拟合为正态分布。在线重用阶段:步骤四,根据在线阶段单个回合的累积效用奖励U更新回合间信念β(τ)。β(τ)描述了回合结束时当前对手使用策略τ的可能性,其在在线应重用阶段开始前由均匀分布初始化。在线策略重用阶段如图1所示,在每个回合结束时,智能体根据步骤三构建的性能模型P(U|τ,π)和回合累积效用奖励U更新回合间信念β(τ)。本专利技术采用贝叶斯策略重用(BayesianPolicyReuse,BPR)更新回合间信念β(τ)。具体来讲,假设回合t结束后,智能体获得的累积效用奖励为ut,则对本文档来自技高网...

【技术保护点】
1.一种基于对手模型和迭代推理的策略识别与重用方法,其特征在于,包括离线学习阶段和在线重用阶段,所述离线学习阶段通过强化学习算法得到对手当前策略的应对策略并用于构建策略库,获取对手当前行为数据构建对手模型,依托对手模型构建基于效用值的性能模型;所述在线重用阶段获取效用值和对手行为信息,通过迭代推理估计对手策略,调用所述策略库中的应对策略进行重用。/n

【技术特征摘要】
1.一种基于对手模型和迭代推理的策略识别与重用方法,其特征在于,包括离线学习阶段和在线重用阶段,所述离线学习阶段通过强化学习算法得到对手当前策略的应对策略并用于构建策略库,获取对手当前行为数据构建对手模型,依托对手模型构建基于效用值的性能模型;所述在线重用阶段获取效用值和对手行为信息,通过迭代推理估计对手策略,调用所述策略库中的应对策略进行重用。


2.根据权利要求1所述的一种基于对手模型和迭代推理的策略识别与重用方法,其特征在于,在所述在线阶段根据对手当前行为数据获取回合内信念,根据回合内信念修正回合间信念,迭代推理估计对手的当前策略,调用所述策略库中的应对策略进行重用。


3.根据权利要求1所述的一种基于对手模型和迭代推理的策略识别与重用方法,其特征在于,所述学习算法为PPO学习算法,其中Actor的损失函数和Critic的损失函数分别为:






其中,CLIP为值域为[1-ε,1+ε]的截断函数,∈∈(0,1),rt(θ)表示新旧策略的概率比,表示t时刻相对优势函数的估计,θ为Actor的参数,θv为Critic的参数,表示智能体在状态st的价值函数,γ∈(0,1)为折扣因子。


4.根据权利要求3所述的一种基于对手模型和迭代推理的策略识别与重用方法,其特征在于,新旧策略的概率比为:



其中,为上一更新时刻的策略,πθ(at|st)为当前策略。


5.根据权利要求3所述的一种基于对手模型和迭代推理的策略识别与重用方法,其特征在于,相对优势函数的估计为:



其中,表示t时刻相对优势函数的估计,rt'为从环境中获得的奖励。
...

【专利技术属性】
技术研发人员:黄健陈浩韩润海刘权龚建兴李嘉祥邓汉强
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1