基于双深度Q网络学习的非完全信息博弈策略优化方法技术

技术编号:32447930 阅读:12 留言:0更新日期:2022-02-26 08:15
本发明专利技术公开了基于双深度Q网络学习的非完全信息博弈策略优化方法。包括以下步骤:步骤1,网络初始化:构建两个深度Q网络Q1和Q2,并进行随机初始化;步骤2,策略动作选择;步骤3,基于双深度Q网络学习DDQN的最优反应策略网络优化;步骤4,基于重要性采样的平均反应策略网络优化,本发明专利技术的有益效果是通过引入DDQN算法来训练神经虚拟自我对局中的最优反应策略网络,能消除动作策略过度估计问题,有利于网络收敛;在经验池中采样经验数据来监督训练平均反应策略网络时,根据时间差分误差来赋予经验数据不同的采样权重,增大了重要经验数据被采样的概率,使网络学习更加高效,提高了平均反应策略的可靠性。策略的可靠性。策略的可靠性。

【技术实现步骤摘要】
基于双深度Q网络学习的非完全信息博弈策略优化方法


[0001]本专利技术属于人工智能
,具体涉及基于双深度Q网络学习的非完全信息博弈策略优化方法。

技术介绍

[0002]机器博弈是人工智能领域一个非常重要的研究方向。机器博弈是机器在感知到外界的环境后,经过分析做出合理正确决策的过程。根据动作策略的先后顺序,机器博弈分为范式博弈和扩展式博弈,范式博弈是智能体同时采取动作策略或者非同时但彼此不知道具体动作策略;扩展式博弈是后行动的智能体能够知道先行动者的动作策略、奖励值的信息。根据智能体了解到的信息,机器博弈分为完全信息博弈和非完全信息博弈,完全信息博弈是指各个智能体能够完全看到全部的状态和环境,没有任何信息的隐藏,例如一些棋类游戏,如国际象棋、围棋;非完全信息博弈是指智能体只能看到自身的状态和公共的环境信息,无法掌握对手及全局的信息,例如扑克类游戏、星际争霸、中国麻将。实际生活中,大多数博弈都是非完全信息,通常动作和状态空间巨大,智能体不能掌握全部的状态信息,无法准确评估整个博弈过程,决策反应难以预测,因此非完全信息机器博弈更具有挑战性。机器博弈采用强化学习算法来进行模型的训练,经典的强化学习算法能够解决一些简单的问题,由于缺乏相对应的理论保证,并且需要大量计算资源,在解决大规模非完全信息扩展式博弈时,经典的机器学习算法不能展现很好的效果。即便是将强化学习算法和相关领域的专家知识结合在一起,也会出现一些不可预知的决策问题。神经虚拟自我对局是一种在端对端扩展博弈中不需要先验知识的博弈模型,在求解博弈问题时可达到纳什均衡策略。神经虚拟自我对局通过神经网络来拟合最优反应策略和平均反应策略,利用Q学习算法来训练最优反应策略网络,通过对智能体历史行为数据的随机采样来监督训练平均反应策略网络,智能体根据平均反应策略和最佳反应策略来进行决策。传统的神经虚拟自我对局在训练平均策略网络Q1时,经验池M
SL
中的监督数据在采样时都具有相同的采样权重,在随机采样的过程中,采样数据由于时间差分误差不同,将会对网络的更新影响很大,时间差分误差越大的样本数据,对网络更新的影响也越大。传统的神经虚拟自我对局在更新最优反应策略网络时用到的是深度Q网络学习算法(DQN),DQN算法是通过最大化Q值函数来对目标进行优化,即通过评估策略动作来进行动作选择,选择Q值最大的动作作为最优反应策略,通常会造成过度估计的问题,模型的过度估计也会导致算法存在很大的偏差,不利于算法的收敛。而随机采样的方法没有考虑不同历史行为数据的重要性,从而影响平均反应策略的可靠性。

技术实现思路

[0003]针对现有技术的不足,本专利技术提供了基于双深度Q网络学习的非完全信息博弈策略优化方法,具体涉及一种基于双深度Q网络神经虚拟自我对局的非完全信息博弈策略优化方法。
[0004]本专利技术所述方法包括以下步骤:
[0005]步骤1,网络初始化:构建两个深度Q网络Q1和Q2,并进行随机初始化,Q1为平均反应策略网络,Q2为最优反应策略网络;
[0006]步骤2,策略动作选择:
[0007]对当前状态s
t
,智能体从最优反应策略网络Q2确定一个最优反应策略a2,从平均反应策略网络Q1确定一个平均反应策略a1,通过混合最优反应策略a2和平均反应策略a1来选择动作,分别如以下公式(1)、(2)所示:
[0008]a2=argmax
a
Q2(s
t
,a;θ

)
……
(1),
[0009]a1=argmax
a
Q1(s
t
,a;θ)
……
(2),
[0010]选择的策略动作,如以下公式(3)所示:
[0011]a
t
=ηa2+(1

η)a1……
(3),
[0012]其中,s
t
是采样时序过程中第t时刻的状态,a是策略动作,θ

是神经网络Q2的学习参数,θ是神经网络Q1的学习参数,η为预测参数;
[0013]步骤3,基于双深度Q网络学习DDQN的最优反应策略网络优化:
[0014]步骤3.1,策略动作评估,对选择的动作a
t
,通过神经网络Q2评估状态动作的Q值,其表达式如以下公式(4)所示:
[0015]y
t
=Q2(s
t
,a
t
;θ

)
……
(4);
[0016]步骤3.2,计算s
t+1
状态下的目标Q值,根据状态s
t
下执行策略动作a
t
的结果,计算s
t+1
状态下的目标Q值,如以下公式(5)所示:
[0017]y
t+1
=r
t+1
+γQ2(s
t
,a
t
;θ

)
……
(5),
[0018]其中,r
t+1
是在s
t
状态下执行动作a
t
与环境交互所获得的奖励,执行动作a
t
后转移到s
t+1
状态,γ为衰减系数;
[0019]步骤3.3,更新经验缓冲区M
RL
和经验蓄水池M
SL
,将当前状态和动作、以及动作执行所获得的奖励和下一个状态(s
t
,a
t
,r
t+1
,s
t+1
)存储在M
RL
中,当智能体选定的动作a
t
是最优反应策略a2,则将当前状态、动作和Q值(s
t
,a
t
,y
t
)存储在经验蓄水池M
SL
中;
[0020]步骤3.4,根据采样得到的四元组(s
t
,a
t
,r
t+1
,s
t+1
)优化更新神经网络Q2,优化的损失函数如公式(6)所示,利用梯度下降法减小误差δ来优化网络:
[0021]δ
t+1
=|y
t+1

Q2(s
t+1
,argmax
a
Q1(s
t+1
,a;θ);θ

)|#
……
(6);
[0022]步骤4,基于重要性采样的平均反应策略网络优化,根据样本的时间差分误差确定样本的采样权重,样本的时间差分误差与样本的采样权重成反比,增大重要经验数据被采样的概率以使学习更加高效:
[0023]步骤4.1,对经验池M
SL
中的每个监督样本,计算时间差分误差,确定采样权重,
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于双深度Q网络学习的非完全信息博弈策略优化方法,其特征在于,包括以下步骤:步骤1,网络初始化:构建两个深度Q网络Q1和Q2,并进行随机初始化,Q1为平均反应策略网络,Q2为最优反应策略网络;步骤2,策略动作选择:对当前状态s
t
,智能体从最优反应策略网络Q2确定一个最优反应策略a2,从平均反应策略网络Q1确定一个平均反应策略a1,通过混合最优反应策略a2和平均反应策略a1来选择动作,如以下公式(1)、(2)所示:a2=argmax
a
Q2(s
t
,a;θ

)
……
(1),a1=argmax
a
Q1(s
t
,a;θ)
……
(2),选择的策略动作,如以下公式(3)所示:a
t
=ηa2+(1

η)a1……
(3),其中,s
t
是采样时序过程中第t时刻的状态,a是策略动作,θ

是神经网络Q2的学习参数,θ是神经网络Q1的学习参数,η为预测参数;步骤3,基于双深度Q网络学习DDQN的最优反应策略网络优化;步骤4,基于重要性采样的平均反应策略网络优化,根据样本的时间差分误差确定样本的采样权重。2.根据权利要求1所述的基于双深度Q网络学习的非完全信息博弈策略优化方法,其特征在于,所述步骤3包括以下步骤:步骤3.1,策略动作评估,对选择的动作a
t
,通过神经网络Q2评估状态动作的Q值,其表达式如以下公式(4)所示:y
t
=Q2(s
t
,a
t
;θ

)
……
(4);步骤3.2,计算s
t+1
状态下的目标Q值,根据状态s
t
下执行策略动作a
t
的结果,计算s
t+1
状态下的目标Q值,如以下公式(5)所示:y
t+1
=r
t+1
+γQ2(s
t
,a
t
;θ

)
……
(5),其中r
t+1
是在s
t
状态下执行动作a
t
...

【专利技术属性】
技术研发人员:段福庆周琪斌韩云涛
申请(专利权)人:北京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1