一种面向兵力对抗强化学习的奖励生成及优化方法技术

技术编号:35342216 阅读:13 留言:0更新日期:2022-10-26 12:06
本发明专利技术提供了一种面向兵力对抗强化学习的奖励生成及优化方法,首先从已有的基于经验规则推理的人类专家策略与仿真环境的实际交互示例出发,利用逆向强化学习方法反推出专家策略中隐含的奖励函数基本结构,从而在较粗粒度上确定面向具体复杂兵力决策任务的原生奖励函数的基本形式;然后基于在奖励重塑的思想基础上进行奖励函数的优化:一方面引入内在鼓励探索机制,引导兵力智能体在足够新颖的对抗状态上获取额外奖励,以增加奖励信号的稠密度和有效性;另一方面将多步序列上的累计奖励作为奖励计算单元,增加奖励信号的稳定性。增加奖励信号的稳定性。增加奖励信号的稳定性。

【技术实现步骤摘要】
一种面向兵力对抗强化学习的奖励生成及优化方法


[0001]本专利技术涉及基于强化学习的智能兵力对抗行为决策建模
具体涉及一种面向兵力对抗强化学习中基于逆向强化学习和鼓励探索机制的奖励生成与优化方法。

技术介绍

[0002]计算机技术是目前作战仿真研究的重要手段和有效途径。其中,计算机生成兵力技术(Computer Generated Forces,CGF)是军用仿真特别是分布交互作战仿真的重要支撑技术,计算机生成兵力是通过计算机创建能够对自身全部或部分动作及行为实施自主控制或指导的虚拟作战兵力实体,这些实体能够代表单个装备平台、武器系统以至整个作战部队单元,并且能够在基于分布交互仿真技术构建的虚拟战场环境中与其他虚拟或真实的兵力进行交互。
[0003]其中人类的作战行为(如对抗态势评估行为、指挥员的指控决策行为等),使装备实体能够不需要与人的交互而自动地对虚拟战场环境的状态和事件做出合理反应和决策,并采取相应的动作和行为完成指定的任务一直是CGF的研究重点。由于兵力仿真系统是一个动态的复杂巨系统,一般具有复杂的非线性和不确定性等特征,使得传统博弈对抗行为模型构建方法难以对复杂战争决策活动进行建模。而作战仿真中的CGF行为建模技术的发展与人工智能的研究相辅相成,其理论基础深植于人工智能领域。近年来随着人工智能技术的迅猛发展和领域深化,基于深度强化学习技术进行CGF行为决策建模的方法成为当今热点研究方向。
[0004]军事领域的兵力对抗过程中,基于深度强化学习算法的兵力智能体在与战场环境的持续交互中不断学习经验,不断更新深度神经网络,从而指导其连续进行行为决策,成为了军事智能对抗行为决策需重点关注并加以突破的关键技术。在基于强化学习的兵力行为决策建模中,兵力智能体的目标被形式化表征为一种特殊标量值信号,称为奖励,其通过仿真环境传递给兵力智能体。兵力智能体面向某个具体的军事对抗任务来学习如何最大化其累积奖励。奖励是指导兵力智能体在与仿真环境的交互中持续进行智能化演进的唯一信号。奖励是需要人为进行设计的一个函数,从数学形式上应当反映的是顶层设计者对兵力智能体须要最终完成的任务目标的理解或认知。比如,在兵力对抗中,如果想要飞机智能体完成自动巡航的任务,奖励反映的应该是当前飞机状态和理想巡航状态之间的差距;如果想要飞机编队完成群体对抗的任务,奖励表征的应该是当前飞机编队还有多大可能性或者把握能够打赢敌方编队。
[0005]奖励设计的人为设计需要非常谨慎,其本身带有很强的主观性和经验性,同时也是一个不断试错和调试的过程,很大程度上依赖于设计者的领域先验知识、数学基础以及对任务问题的认知深度,甚至带有一定的“运气成分”。因此不合理的奖励设计容易使得基于强化学习的兵力行为决策在演化过程中出现“目标倾斜”,无法引导智能体趋近理想的任务目标;而在保守的奖励设计倾向下,复杂的联合兵力对抗仿真场景中兵力智能体非常容易陷入“奖励稀疏”和“奖励延迟”的困境:兵力智能体无法及时得到足够多且有效的奖励信
号,进而导致学习缓慢,需要长时间和大范围的试错和探索才可能找到好的策略,甚至根本无法有效学习。
[0006]典型的兵力对抗仿真场景中,由于参与对抗的兵力平台众多,各平台的行为决策产生高度耦合,加上环境本身具有的动态性,往往导致对抗过程随机性很强,局面复杂程度很高,环境状态在高度动态的变化过程当中进行快速转移。另外,联合兵力对抗仿真任务往往很复杂或者包含多个子任务,难以从数学形式上指定具体的奖励函数。如果对抗任务具有某种长期目标,即使在目标状态明确的前提下,智能体依然需要和环境进行长时间的仿真交互才能推进到达终止状态,奖励稀疏和延迟的现象更加难以避免。同时兵力智能体需要探索的策略空间巨大,可能有成百上千种不同的战术战法排列组合形成的策略可以有效达成最终目标。因此,面对复杂的兵力行为决策问题,非常不易设计出形式合理、表征性强、稠密度高的奖励函数以驱动兵力智能体在强化学习算法下完成任务。
[0007]综上所述,智能对抗兵力行为决策中的强化学习奖励生成与优化问题是须要重点突破的一个关键问题。针对具体的联合兵力对抗仿真任务,生成能够有效驱动强化学习兵力智能体向任务目标趋近的奖励函数,并能够通过一定的优化手段使得奖励函数能够更加高效地引导兵力行为决策模型在训练中快速收敛,在兵力对抗仿真场景中具有重要的理论意义和军事应用价值。
[0008]针对智能对抗兵力行为决策建模中的强化学习奖励生成和优化问题,研究基于逆向强化学习和奖励重塑的奖励信号生成和优化方法。奖励信号的抽象是一个先验设计问题,设计的奖励函数原则上必须要使得智能体在最大化奖励的同时也能实现面向的具体任务目标。因此,奖励设计的关键是要能在数学形式上真正表征智能体需要最终实现的目标。然而,面向兵力对抗的奖励函数的设计存在以下几个问题:(1)形式化的奖励函数设计困难,在稍微复杂的兵力对抗场景中,设计中间步上的奖励函数时,奖励函数的设计稍有不慎,就会使得兵力行为决策在演化过程中出现“目标倾斜”,无法引导智能体趋近理想的任务目标;形式化奖励设计的人为设计需要非常谨慎,其本身带有很强的主观性和经验性,很大程度上依赖于设计者的领域先验知识、数学基础以及对任务问题的认知深度。(2)在兵力对抗的仿真场景中,“稀疏奖励”的问题更加明显。首先,兵力对抗依赖于和底层仿真系统的实时交互,仿真系统的推进速率设置通常会影响到奖励信号的即时计算;其次,具体兵力对抗任务一般需要长时间的复杂交互才能达到终止状态,中间时间步上的兵力行为产生的效果往往存在延迟反馈。

技术实现思路

[0009]为克服当前兵力对抗强化学习应用中奖励函数设计的问题,本专利技术旨在将逆向强化学习算法引入智能对抗兵力行为建模中,结合鼓励探索机制以及多步序列单元的奖励重构机制,形成面向兵力对抗强化学习的奖励函数生成和优化技术方案。本专利技术采用的技术方案首先从已有的基于经验规则推理的人类专家策略与仿真环境的实际交互示例出发,利用逆向强化学习方法反推出专家策略中隐含的奖励函数基本结构,从而在较粗粒度上确定面向具体复杂兵力决策任务的原生奖励函数的基本形式;然后基于在奖励重塑的思想基础上进行奖励函数的优化:一方面引入内在鼓励探索机制,引导兵力智能体在足够新颖的对抗状态上获取额外奖励,以增加奖励信号的稠密度和有效性;另一方面将多步序列上的累
计奖励作为奖励计算单元,增加奖励信号的稳定性。
[0010]本专利技术的技术方案如下:
[0011]一种面向兵力对抗强化学习的奖励生成及优化方法,具体步骤如下:
[0012]S1、生成基于逆向强化学习的奖励函数,其具体流程如下:
[0013]步骤101:使用人类专家策略π
E
驱动的智能体与兵力对抗环境进行若干轮交互,得到多条如下式所示的交互序列,为人类示例;
[0014]τ:s1,a1,s2,a2,

,s
t
,a
t
,

,s
T
~π
E
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向兵力对抗强化学习的奖励生成及优化方法,其特征在于,具体步骤如下:S1、生成基于逆向强化学习的奖励函数,其具体流程如下:步骤101:使用人类专家策略π
E
驱动的智能体与兵力对抗环境进行若干轮交互,得到多条如下式所示的交互序列,为人类示例;τ:s1,a1,a2,a2,

,s
t
,a
t
,

,s
T
~π
E
其中,某条交互序列用τ表示,s
t
为第t时间步时的状态,a
t
为第t时间步时的动作,得到m条人类示例的无奖励交互数据构成的数据集其中τ
i
表示第i条交互序列;步骤102:从人类示例的每个时间步上的交互数据中得到奖励值,将需要反向推理出的人类专家策略π
E
(a|s)中隐含的奖励函数表示为下式所示的特征函数,其中s为当前状态,a为人类专家策略π
E
输出的动作,首先选定奖励函数r
*
=w
·
φ(s,a):r
*
(s,a;w)=w
·
φ(s,a)∈[0,1]其中,φ(s,a)为状态动作对<s,a>处的特征基底函数,反映了状态动作对<s,a>到标量值的一个映射φ:S
×
A

[0,1]
k
,其中S为状态空间,A为动作空间,k表示基底的个数;特征基底函数可选为多项式函数,傅里叶函数,径向基函数之一;其中,为一组特征基底函数对应的参数值向量;步骤103:随机初始化单位向量步骤104:得到奖励值w
·
φ(s,a)后进一步利用此奖励值驱动智能体进行正向的强化学习过程,选定一种强化学习的策略优化方法按照最大化累计奖励期望的方向优化通用策略π(a|s;θ)并更新策略参数θ,不断迭代过此过程,训练的目标是使得正向强化学习的到的策略与人类专家策略的累计奖励期望相近,此时的奖励网络r
*
(s,a;w)即为即为逆向强化学习反推出的奖励函数;步骤105:随机初始化一个原始通用策略π0(a|s;θ);步骤106:选定一个衡量人类专家策略和通用策略之间表现差距的超参数值∈;初始化迭代轮次i=1;步骤107:结合步骤102中奖励函数公式,累计奖励期望可以推导如下式;其中,E
π
为人类专家策略的数学期望,t为时间步下标,T为终止时间步、γ为奖励函数衰减因子;定义策略相关的特征期望函数如下式;步骤108:不同策略驱动下的累计奖励期望可以表示为w
·
μ(π);当给定m条人类示例形成的数据集后,可以得到人类专家策略的特征期望μ
E
,如下式所示:其中,分别表示第i条序列中第k个时间步的状态与动作;
步骤109:基于奖励函数r
*(0)
=w0·
φ(s,a),使用策略π0驱动兵力智能体与对抗仿真环境进行若干轮交互,得到有奖励的交互数据构成的数据集基于此数据集按照下式计算策略π0的特征期望μ
(0)
;步骤110:用特征期望表征策略的表现,逆向强化学习的目标可以表述为使得通用策略π不断优化到一个策略使其特征期望与人类专家策略π
E
的特征期望相近,如下式所示:于是对于任意的特征参数‖ρ‖≤1,累计奖励期望满足下式:其中,为通用策略π的数学期望,为优化策略的数学期望;步骤111:用特征期望衡量策略的表现,找到一个足够逼近人类专家策略π
E
的通用策略通过多轮迭代优化通用策略π在的过程形成一系列策略{π
i
:i=0,

,n},在每一轮迭代中按照下式找到一个最大的边界值t>∈,对应奖励函数r
*
=w
(i)
·
φ,使得人类专家策略π
E
和此轮迭代之前的所有策略之间的特征期望之差始终大于t,直到找不到这样的最大边界值,说明通用策略已经优化到足够接近人类专家策略,上一轮迭代的边界值对应的奖励函数即为从人类专家策略中反向推理出的奖励函数,下面开始第i轮迭代;其中,max
t,w
t为t,w满足公式后所述s.t.条件时t的最大值,μ
j
为第j个通用策略的数学期望;计算t
(i)
=max
w:‖w‖≤1
[min
j∈{0,1

,(i

1)}
w
·

E

μ
(j)
),求得满足此式的参数向量w
(i)
,并更新奖励函数为r
*(i)
=w
(i)
·
φ(s,a);步骤112:如果t
(i)
≤∈,则结束,并返回策略序列{π
i
:i=0,

,n}和奖励函数r
*(i)
=w
(i)
·
φ(s,a),此步输出的奖励函数即为逆向强化学习反向推理得到的人类专家策略隐含的奖励函数,此奖励函数作为复杂兵力行为决策任务...

【专利技术属性】
技术研发人员:李妮董力维韩宏伟龚光红
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1