一种基于对手模型和迭代推理的策略识别与重用方法技术

技术编号：28675754 阅读：28 留言：0更新日期：2021-06-02 02:52

本发明专利技术提供了一种基于对手模型和迭代推理的策略识别与重用方法，包括离线学习阶段和在线重用阶段，离线学习阶段通过强化学习算法得到对手当前策略的应对策略并用于构建策略库，获取对手当前行为数据构建对手模型，依托对手模型构建基于效用值的性能模型；在线重用阶段获取效用值和对手行为信息，通过迭代推理估计对手策略，调用策略库中的应对策略进行重用。本发明专利技术引入了回合内信念用于实时修正贝叶斯迭代推理的结果，结合对手模型可以在回合内识别对手策略是否改变，并及时采用最优应对策略；回合内信念的更新仅需要观测对手行为而不依赖效用值函数；本发明专利技术可以识别回合内切换策略、回合间随机切换策略且具有推理能力的对手，并重用最优应对策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对手模型和迭代推理的策略识别与重用方法
本专利技术涉及多智能体对抗领域，具体公开了一种基于对手模型和迭代推理的策略识别与重用方法。
技术介绍
多智能体系统中，智能体不仅与环境交互，其他参与者的行为也影响智能体的动作选择。特别是面对使用非稳定策略的参与者时，策略选择过程更为困难，因为此时其他参与者也根据智能体的行为调整策略。本专利技术将环境中合作型参与者和对抗型参与者统称为对手。一般情况下，对手维护了一个策略库，并通过策略切换优化其性能。在这种情况下，智能体需要在离线阶段学习对手使用固定策略时的最优应对策略，并在在线重用阶段准确检测对手策略是否发生改变，并重用对应的最优应对策略。对手的策略切换类型可以分为回合间切换和回合内切换，根据其切换方式的复杂程度，又可以分为随机切换和具有推理能力地切换。具体来说，回合间切换就是在本回合结束、下回合开始前切换策略；回合内切换是指在当回合内的某时刻切换策略。随机切换是指对手随机从策略库中选择可用策略；具有推理能力地切换是指对手根据智能体的行为和环境反馈，从策略库中选择对自身有利的策略执行。现有的方法仅单方面关注回合间切换策略、随机切换策略或具有推理能力切换策略的对手，而不能同时应对上述所有切换类型。
技术实现思路
本专利技术目的在提供一种基于对手模型和迭代推理的策略识别与重用方法，以解决现有技术中存在不能同时应对多种切换类型的技术缺陷。为实现上述目的，本专利技术提供了一种基于对手模型和迭代推理的策略识别与重用方法，包括离线学习阶段和在线重用...

【技术保护点】
1.一种基于对手模型和迭代推理的策略识别与重用方法，其特征在于，包括离线学习阶段和在线重用阶段，所述离线学习阶段通过强化学习算法得到对手当前策略的应对策略并用于构建策略库，获取对手当前行为数据构建对手模型，依托对手模型构建基于效用值的性能模型；所述在线重用阶段获取效用值和对手行为信息，通过迭代推理估计对手策略，调用所述策略库中的应对策略进行重用。/n

【技术特征摘要】
1.一种基于对手模型和迭代推理的策略识别与重用方法，其特征在于，包括离线学习阶段和在线重用阶段，所述离线学习阶段通过强化学习算法得到对手当前策略的应对策略并用于构建策略库，获取对手当前行为数据构建对手模型，依托对手模型构建基于效用值的性能模型；所述在线重用阶段获取效用值和对手行为信息，通过迭代推理估计对手策略，调用所述策略库中的应对策略进行重用。

2.根据权利要求1所述的一种基于对手模型和迭代推理的策略识别与重用方法，其特征在于，在所述在线阶段根据对手当前行为数据获取回合内信念，根据回合内信念修正回合间信念，迭代推理估计对手的当前策略，调用所述策略库中的应对策略进行重用。

3.根据权利要求1所述的一种基于对手模型和迭代推理的策略识别与重用方法，其特征在于，所述学习算法为PPO学习算法，其中Actor的损失函数和Critic的损失函数分别为：

其中，CLIP为值域为[1-ε,1+ε]的截断函数，∈∈(0,1)，rt(θ)表示新旧策略的概率比，表示t时刻相对优势函数的估计，θ为Actor的参数，θv为Critic的参数，表示智能体在状态st的价值函数，γ∈(0,1)为折扣因子。

4.根据权利要求3所述的一种基于对手模型和迭代推理的策略识别与重用方法，其特征在于，新旧策略的概率比为：

其中，为上一更新时刻的策略，πθ(at|st)为当前策略。

5.根据权利要求3所述的一种基于对手模型和迭代推理的策略识别与重用方法，其特征在于，相对优势函数的估计为：

其中，表示t时刻相对优势函数的估计，rt'为从环境中获得的奖励。
...

【专利技术属性】
技术研发人员：黄健，陈浩，韩润海，刘权，龚建兴，李嘉祥，邓汉强，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人