【技术实现步骤摘要】
一种面向兵力对抗强化学习的奖励生成及优化方法
[0001]本专利技术涉及基于强化学习的智能兵力对抗行为决策建模
具体涉及一种面向兵力对抗强化学习中基于逆向强化学习和鼓励探索机制的奖励生成与优化方法。
技术介绍
[0002]计算机技术是目前作战仿真研究的重要手段和有效途径。其中,计算机生成兵力技术(Computer Generated Forces,CGF)是军用仿真特别是分布交互作战仿真的重要支撑技术,计算机生成兵力是通过计算机创建能够对自身全部或部分动作及行为实施自主控制或指导的虚拟作战兵力实体,这些实体能够代表单个装备平台、武器系统以至整个作战部队单元,并且能够在基于分布交互仿真技术构建的虚拟战场环境中与其他虚拟或真实的兵力进行交互。
[0003]其中人类的作战行为(如对抗态势评估行为、指挥员的指控决策行为等),使装备实体能够不需要与人的交互而自动地对虚拟战场环境的状态和事件做出合理反应和决策,并采取相应的动作和行为完成指定的任务一直是CGF的研究重点。由于兵力仿真系统是一个动态的复杂巨系统,一般具有复杂的非线性和不确定性等特征,使得传统博弈对抗行为模型构建方法难以对复杂战争决策活动进行建模。而作战仿真中的CGF行为建模技术的发展与人工智能的研究相辅相成,其理论基础深植于人工智能领域。近年来随着人工智能技术的迅猛发展和领域深化,基于深度强化学习技术进行CGF行为决策建模的方法成为当今热点研究方向。
[0004]军事领域的兵力对抗过程中,基于深度强化学习算法的兵力智能体在与战场环境的持续交互 ...
【技术保护点】
【技术特征摘要】
1.一种面向兵力对抗强化学习的奖励生成及优化方法,其特征在于,具体步骤如下:S1、生成基于逆向强化学习的奖励函数,其具体流程如下:步骤101:使用人类专家策略π
E
驱动的智能体与兵力对抗环境进行若干轮交互,得到多条如下式所示的交互序列,为人类示例;τ:s1,a1,a2,a2,
…
,s
t
,a
t
,
…
,s
T
~π
E
其中,某条交互序列用τ表示,s
t
为第t时间步时的状态,a
t
为第t时间步时的动作,得到m条人类示例的无奖励交互数据构成的数据集其中τ
i
表示第i条交互序列;步骤102:从人类示例的每个时间步上的交互数据中得到奖励值,将需要反向推理出的人类专家策略π
E
(a|s)中隐含的奖励函数表示为下式所示的特征函数,其中s为当前状态,a为人类专家策略π
E
输出的动作,首先选定奖励函数r
*
=w
·
φ(s,a):r
*
(s,a;w)=w
·
φ(s,a)∈[0,1]其中,φ(s,a)为状态动作对<s,a>处的特征基底函数,反映了状态动作对<s,a>到标量值的一个映射φ:S
×
A
→
[0,1]
k
,其中S为状态空间,A为动作空间,k表示基底的个数;特征基底函数可选为多项式函数,傅里叶函数,径向基函数之一;其中,为一组特征基底函数对应的参数值向量;步骤103:随机初始化单位向量步骤104:得到奖励值w
·
φ(s,a)后进一步利用此奖励值驱动智能体进行正向的强化学习过程,选定一种强化学习的策略优化方法按照最大化累计奖励期望的方向优化通用策略π(a|s;θ)并更新策略参数θ,不断迭代过此过程,训练的目标是使得正向强化学习的到的策略与人类专家策略的累计奖励期望相近,此时的奖励网络r
*
(s,a;w)即为即为逆向强化学习反推出的奖励函数;步骤105:随机初始化一个原始通用策略π0(a|s;θ);步骤106:选定一个衡量人类专家策略和通用策略之间表现差距的超参数值∈;初始化迭代轮次i=1;步骤107:结合步骤102中奖励函数公式,累计奖励期望可以推导如下式;其中,E
π
为人类专家策略的数学期望,t为时间步下标,T为终止时间步、γ为奖励函数衰减因子;定义策略相关的特征期望函数如下式;步骤108:不同策略驱动下的累计奖励期望可以表示为w
·
μ(π);当给定m条人类示例形成的数据集后,可以得到人类专家策略的特征期望μ
E
,如下式所示:其中,分别表示第i条序列中第k个时间步的状态与动作;
步骤109:基于奖励函数r
*(0)
=w0·
φ(s,a),使用策略π0驱动兵力智能体与对抗仿真环境进行若干轮交互,得到有奖励的交互数据构成的数据集基于此数据集按照下式计算策略π0的特征期望μ
(0)
;步骤110:用特征期望表征策略的表现,逆向强化学习的目标可以表述为使得通用策略π不断优化到一个策略使其特征期望与人类专家策略π
E
的特征期望相近,如下式所示:于是对于任意的特征参数‖ρ‖≤1,累计奖励期望满足下式:其中,为通用策略π的数学期望,为优化策略的数学期望;步骤111:用特征期望衡量策略的表现,找到一个足够逼近人类专家策略π
E
的通用策略通过多轮迭代优化通用策略π在的过程形成一系列策略{π
i
:i=0,
…
,n},在每一轮迭代中按照下式找到一个最大的边界值t>∈,对应奖励函数r
*
=w
(i)
·
φ,使得人类专家策略π
E
和此轮迭代之前的所有策略之间的特征期望之差始终大于t,直到找不到这样的最大边界值,说明通用策略已经优化到足够接近人类专家策略,上一轮迭代的边界值对应的奖励函数即为从人类专家策略中反向推理出的奖励函数,下面开始第i轮迭代;其中,max
t,w
t为t,w满足公式后所述s.t.条件时t的最大值,μ
j
为第j个通用策略的数学期望;计算t
(i)
=max
w:‖w‖≤1
[min
j∈{0,1
…
,(i
‑
1)}
w
·
(μ
E
‑
μ
(j)
),求得满足此式的参数向量w
(i)
,并更新奖励函数为r
*(i)
=w
(i)
·
φ(s,a);步骤112:如果t
(i)
≤∈,则结束,并返回策略序列{π
i
:i=0,
…
,n}和奖励函数r
*(i)
=w
(i)
·
φ(s,a),此步输出的奖励函数即为逆向强化学习反向推理得到的人类专家策略隐含的奖励函数,此奖励函数作为复杂兵力行为决策任务...
【专利技术属性】
技术研发人员:李妮,董力维,韩宏伟,龚光红,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。