基于双深度Q网络学习的非完全信息博弈策略优化方法技术

技术编号：32447930 阅读：12 留言：0更新日期：2022-02-26 08:15

本发明专利技术公开了基于双深度Q网络学习的非完全信息博弈策略优化方法。包括以下步骤：步骤1，网络初始化：构建两个深度Q网络Q1和Q2，并进行随机初始化；步骤2，策略动作选择；步骤3，基于双深度Q网络学习DDQN的最优反应策略网络优化；步骤4，基于重要性采样的平均反应策略网络优化，本发明专利技术的有益效果是通过引入DDQN算法来训练神经虚拟自我对局中的最优反应策略网络，能消除动作策略过度估计问题，有利于网络收敛；在经验池中采样经验数据来监督训练平均反应策略网络时，根据时间差分误差来赋予经验数据不同的采样权重，增大了重要经验数据被采样的概率，使网络学习更加高效，提高了平均反应策略的可靠性。策略的可靠性。策略的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
基于双深度Q网络学习的非完全信息博弈策略优化方法

[0001]本专利技术属于人工智能
，具体涉及基于双深度Q网络学习的非完全信息博弈策略优化方法。

技术介绍

[0002]机器博弈是人工智能领域一个非常重要的研究方向。机器博弈是机器在感知到外界的环境后，经过分析做出合理正确决策的过程。根据动作策略的先后顺序，机器博弈分为范式博弈和扩展式博弈，范式博弈是智能体同时采取动作策略或者非同时但彼此不知道具体动作策略；扩展式博弈是后行动的智能体能够知道先行动者的动作策略、奖励值的信息。根据智能体了解到的信息，机器博弈分为完全信息博弈和非完全信息博弈，完全信息博弈是指各个智能体能够完全看到全部的状态和环境，没有任何信息的隐藏，例如一些棋类游戏，如国际象棋、围棋；非完全信息博弈是指智能体只能看到自身的状态和公共的环境信息，无法掌握对手及全局的信息，例如扑克类游戏、星际争霸、中国麻将。实际生活中，大多数博弈都是非完全信息，通常动作和状态空间巨大，智能体不能掌握全部的状态信息，无法准确评估整个博弈过程，决策反应难以预测，因此非完全信息机器博弈更具有挑战性。机器博弈采用强化学习算法来进行模型的训练，经典的强化学习算法能够解决一些简单的问题，由于缺乏相对应的理论保证，并且需要大量计算资源，在解决大规模非完全信息扩展式博弈时，经典的机器学习算法不能展现很好的效果。即便是将强化学习算法和相关领域的专家知识结合在一起，也会出现一些不可预知的决策问题。神经虚拟自我对局是一种在端对端扩展博弈中不需要先验知识的博弈模型，在求解博弈问题时可达到纳什...

【技术保护点】

【技术特征摘要】
1.基于双深度Q网络学习的非完全信息博弈策略优化方法，其特征在于，包括以下步骤：步骤1，网络初始化：构建两个深度Q网络Q1和Q2，并进行随机初始化，Q1为平均反应策略网络，Q2为最优反应策略网络；步骤2，策略动作选择：对当前状态s
t
，智能体从最优反应策略网络Q2确定一个最优反应策略a2，从平均反应策略网络Q1确定一个平均反应策略a1，通过混合最优反应策略a2和平均反应策略a1来选择动作，如以下公式(1)、(2)所示：a2＝argmax
a
Q2(s
t
，a；θ
‑
)
……
(1)，a1＝argmax
a
Q1(s
t
，a；θ)
……
(2)，选择的策略动作，如以下公式(3)所示：a
t
＝ηa2+(1
‑
η)a1……
(3)，其中，s
t
是采样时序过程中第t时刻的状态，a是策略动作，θ
‑
是神经网络Q2的学习参数，θ是神经网络Q1的学习参数，η为预测参数；步骤3，基于双深度Q网络学习DDQN的最优反应策略网络优化；步骤4，基于重要性采样的平均反应策略网络优化，根据样本的时间差分误差确定样本的采样权重。2.根据权利要求1所述的基于双深度Q网络学习的非完全信息博弈策略优化方法，其特征在于，所述步骤3包括以下步骤：步骤3.1，策略动作评估，对选择的动作a
t
，通过神经网络Q2评估状态动作的Q值，其表达式如以下公式(4)所示：y
t
＝Q2(s
t
，a
t
；θ
‑
)
……
(4)；步骤3.2，计算s
t+1
状态下的目标Q值，根据状态s
t
下执行策略动作a
t
的结果，计算s
t+1
状态下的目标Q值，如以下公式(5)所示：y
t+1
＝r
t+1
+γQ2(s
t
，a
t
；θ
‑
)
……
(5)，其中r
t+1
是在s
t
状态下执行动作a
t
...

【专利技术属性】
技术研发人员：段福庆，周琪斌，韩云涛，
申请(专利权)人：北京师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人