一种基于键值对注意力机制的智能体博弈对抗方法技术

技术编号:37428699 阅读:17 留言:0更新日期:2023-04-30 09:49
本发明专利技术公开了一种基于键值对注意力机制的智能体博弈对抗方法,提出了一种AT

【技术实现步骤摘要】
一种基于键值对注意力机制的智能体博弈对抗方法


[0001]本专利技术涉及智能体博弈对抗
,尤其涉及一种基于键值对注意力机制的智能体博弈对抗方法。

技术介绍

[0002]近年来,智能体博弈在竞技游戏、作战仿真推演等领域应用前景广阔,其博弈对抗策略一直是人工智能的研究热点。在博弈对抗环境中,智能体博弈存在“非平稳性”问题。即智能体在博弈学习中往往不仅受到固定的环境影响,同时还受到其他智能体的动作行为影响,在博弈环境中,每个智能体的决策模型随着时间是不断变化的,因此,智能体学习模型不再满足马尔可夫决策。那么,如何解决智能体博弈中存在的“非平稳性”问题成为智能博弈的研究重点。
[0003]其中,对手行为建模是解决强化学习“非平稳性”的一个手段,对环境中对手行为信息做出建模和预测,辅助我方智能体强化学习,根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略。早期对手行为建模主要采取显示建模方法,显示建模存在模型复杂、计算量大、需要人为参与模型参数设置等缺点。随着神经网络的普及,基于神经网络的隐式对手行为建模成为当下主流的建模方法。但是,目前的隐式建模方法基于Q值学习网络(DQN),计算精度不高,预测效果不好,部分搜索策略中参数α需借助人工先验知识来选择,算法不够智能、策略存在一定误差,算法精度不够理想。其许多改进算法也存在对手行为特征提取部分存在提取信息较慢,特征信息不完备、与环境信息结合的行为特征提取不够集中的问题。

技术实现思路

[0004]针对上述现有技术的不足,提供一种基于键值对注意力机制的智能体博弈对抗方法应用于智能体博弈对抗环境中,在我方强化学习智能体与对手智能体博弈过程中,使得我方智能体高效、精准的学习到对手的智能体的策略特征。
[0005]一种基于键值对注意力机制的智能体博弈对抗方法,首先定义一个了AT

Double

DQN

OAP算法;所述AT

Double

DQN

OAP算法分为三个模块,分别是环境信息提取模块,对手行为预测模块,我方行为学习模块;环境状态特征提取模块对输入的环境状态S进行特征编码,其作为后面两个模块的共享输入以进行针对性的深入提取;对手行为预测模块以环境状态特征信息s作为输入,通过OAP网络预测对手动作的策略得到对手策略特征;我方学习模块用于拟合智能体的Q值函数,以便我方智能体根据地方动作选择最优动作执行;
[0006]基于AT

Double

DQN

OAP算法进行智能体博弈对抗的方法,具体为:
[0007]步骤1:利用AT

Double

DQN

OAP算法对对三种不同类别时间、空间、统计数据信息进行编码得到当前的环境状态S;
[0008]利用循环神经网络采集时间信息得到时间序列,采用卷积神经网络采集空间信息得到卷积图像特征,采用全连接神经网络提取数据统计信息;将使用三种网络提取到的三
类信息来生成当前的环境状态特征提取编码后的特征信息s;并且AT

Double

DQN

OAP算法层面:初始化环境状态S,初始化价值网络参数,初始化OAP特征函数,初始化目标网络参数,初始化训练池参数;
[0009]步骤2:输入我方行为学习模块的环境量直接由特征信息s的全连接隐层表示,输入对手行为预测模块时,由于引入键值对注意力,需要将环境状态量表示为S(K,V)的向量表达;
[0010]步骤3:将环境状态量S(K,V)输入对手行为预测模块,对手行为预测模块将当前向量化后的环境特征信息S(K,V)中影响较大的信息进行键值对注意机制编码,将编码后的环境特征S

(K,V)作为输入,通过键值对网络提取特征信息,键值对提取特征信息满足:
[0011][0012]其中,q是任务查询向量,N是任务组数,k
n
为第n组输入信息的键向量,k
j
为第j组输入信息的键向量;v
n
为为第n组信息的值向量;
[0013]基于AT

Double

DQN

OAP算法层面:向双方智能体输入初始环境状态,对手智能体开始根据环境特征进行相应的行动;
[0014]步骤4:将步骤3提取的特征信息经softmax函数输出对手策略概率分布,策略分布π(a|att(s),θ)满足:
[0015][0016]其中,a

为下一步动作,a为当前动作,θ为网络参数,att(s)为键值对注意力提取后的特征信息;π为对手策略分布;
[0017]由此输出对手智能体每个动作的概率分布;
[0018]步骤5:将环境特征信息s输入到Double

DQN学习网络,相较于传统的DQN网络,Double

DQN引入目标网络Q

来解决智能体学习过程中Q值过估计问题,目标网络Q

产生当前动作的最大Q值,将最大值Q输入到价值网络y
*
产生最优Q
*
,具体如下:
[0019]θ

=θ+a(y+Q(sinθ)Q(s,a,θ))
[0020]y
*
=E
(s,a,r,s

)
[r+yQ(s,argmaxQ

(s

,a



),θ)][0021]Q
*
=Q(s,a)+a(r+ymaxQ(s

,a)

Q(s,a))
[0022]其中,s为当前环境状态,s

为下一时刻环境状态,r为转移因子,y为折扣因子,y
*
为消除过估计值后的折扣因子,θ为网络参数,θ

为下一时刻网络参数,Q当前状态的动作价值,Q
*
为下一时刻的动作价值;
[0023]步骤6:对AT

Double

DQN

OAP算法进行损失函数计算;
[0024]对Double

DQN网络以及AT

OAP算法分别进行损失函数计算,其中,Double

DQN损失函数计算如下:
[0025]a
l
=argmaxQ

(s

,a



)
[0026]L(θ)=E
(s,a,r,s

)
[r本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,首先定义一个了AT

Double

DQN

OAP算法;所述AT

Double

DQN

OAP算法分为三个模块,分别是环境信息提取模块,对手行为预测模块,我方行为学习模块;环境状态特征提取模块对输入的环境状态S进行特征编码,其作为后面两个模块的共享输入以进行针对性的深入提取;对手行为预测模块以环境状态特征信息s作为输入,通过OAP网络预测对手动作的策略得到对手策略特征;我方学习模块用于拟合智能体的Q值函数,以便我方智能体根据地方动作选择最优动作执行。2.根据权利要求1所述的一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,所述智能体博弈对抗的方法,具体为:步骤1:利用AT

Double

DQN

OAP算法对对三种不同类别时间、空间、统计数据信息进行编码得到当前的环境状态S;利用循环神经网络采集时间信息得到时间序列,采用卷积神经网络采集空间信息得到卷积图像特征,采用全连接神经网络提取数据统计信息;将使用三种网络提取到的三类信息来生成当前的环境状态特征提取编码后的特征信息s;并且AT

Double

DQN

OAP算法层面:初始化环境状态S,初始化价值网络参数,初始化OAP特征函数,初始化目标网络参数,初始化训练池参数;步骤2:输入我方行为学习模块的环境量直接由特征信息s的全连接隐层表示,输入对手行为预测模块时,由于引入键值对注意力,需要将环境状态量表示为S(K,V)的向量表达;步骤3:将环境状态量S(K,V)输入对手行为预测模块,对手行为预测模块将当前向量化后的环境特征信息S(K,V)中影响较大的信息进行键值对注意机制编码,将编码后的环境特征S

(K,V)作为输入,通过键值对网络提取特征信息;步骤4:将步骤3提取的特征信息经softmax函数输出对手策略概率分布;步骤5:将环境特征信息s输入到Double

DQN学习网络,相较于传统的DQN网络,Double

DQN引入目标网络Q

来解决智能体学习过程中Q值过估计问题,目标网络Q

产生当前动作的最大Q值,将最大值Q输入到价值网络y
*
产生最优Q
*
;步骤6:对AT

Double

DQN

OAP算法进行损失函数计算。3.根据权利要求2所述的一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,步骤3键值对提取特征信息满足:其中,q是任务查询向量,N是任务组数,k
n
为第n组输入信息的键向量,k
j
为第j组输入信息的键向量;v
n
为为第n组信息的值向量;基于AT
‑<...

【专利技术属性】
技术研发人员:王金涛屈嘉逸赵龙崔璨
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1