针对对抗场景下不确定性辅助任务的分层强化学习方法技术

技术编号：38889203 阅读：11 留言：0更新日期：2023-09-22 14:15

本发明专利技术提出了针对对抗场景下不确定性辅助任务的分层强化学习方法。首先进行上层的任务分配阶段，智能体先获取全局环境信息，然后提取出其中对自身重要的辅助任务信息，再基于此提取出重要的主要任务信息，最后结合其它智能体的信息学习出任务分配策略；然后进行下层的任务执行阶段，智能体先根据分配结果构建专属子环境，然后在子环境内学习出任务执行顺序，最后执行具体动作。本专利提出的分层强化学习算法可以更高效地帮助多智能体系统学习如何执行不确定辅助任务，通过先学习上层的多智能体不确定辅助任务分配策略，再学习下层的单智能体不确定辅助任务执行策略，分别解决不确定辅助任务对群体和个体的影响，可以有效降低问题的复杂度。低问题的复杂度。低问题的复杂度。

全部详细技术资料下载

【技术实现步骤摘要】
针对对抗场景下不确定性辅助任务的分层强化学习方法

[0001]本专利技术涉及自主无人系统领域，具体涉及一种针对对抗场景下不确定性辅助任务的分层强化学习方法。

技术介绍

[0002]近年来，不同种类的自主无人系统，譬如无人机、无人车、仿生机器人等，被逐步应用到了军事、反恐、商业、救灾等各种复杂不确定环境中去执行任务，在这些任务中，除了与优化目标直接相关的“主要任务”，还存在着与优化目标有间接影响关系的“辅助任务”。其中，辅助任务的执行可以在一定程度内提升其影响范围内其它任务的执行效率(譬如，在电子对抗场景中，攻击敌方舰船是主要任务，屏蔽敌方电磁干扰是辅助任务)。因此，需要根据主要任务以及辅助任务的关联关系，为多智能体系统中的每个智能体分配对应的任务，并为其设计相应的任务执行策略，来提升任务执行的效用。
[0003]在实际对抗场景中，辅助任务的辅助能力是不确定的，主要体现在对其影响范围内其它任务执行效率的增益是不确定的。在这种情况下，由于以往算法缺乏对这种不确定性辅助任务的建模，会导致系统陷入局部最优解。在设计针对性算法时，存在两个挑战：首先，在为多智能体系统设计任务分配策略时，需要考虑不确定性辅助任务及其对主要任务的影响，增加了问题解的维度；其次，在考虑任务执行策略时，需要根据辅助任务的不确定性，自适应地调整智能体的任务执行顺序，使得问题的解空间变得复杂。
[0004]为了解决这个问题，本专利提出了一种分层多智能体强化学习方法，来分别解决不确定辅助任务对群体和个体的影响带来的任务分配和任务执行问题，以此...

【技术保护点】

【技术特征摘要】
1.一种针对对抗场景下不确定性辅助任务的分层强化学习方法，其特征在于：该方法包括，首先进行上层强化学习的任务分配阶段，智能体先获取全局环境信息，然后提取出其中对自身重要的辅助任务信息，再基于此提取出重要的主要任务信息，最后结合其它智能体的信息学习出任务分配策略；接着进行下层强化学习的任务执行阶段，智能体先根据分配结果构建专属子环境，然后在子环境内学习出任务执行顺序，最后执行具体动作；其中，上层强化学习用于解决不确定辅助任务对整个多智能体系统的影响带来的任务分配问题，下层强化学习用于解决不确定辅助任务对单个智能体的影响带来的任务执行问题。2.根据权利要求1所述的一种针对对抗场景下不确定性辅助任务的分层强化学习方法，其特征在于：任务分配阶段中，对环境信息获取，环境是二维连续空间，每一个位置都有一个坐标(x，y)，每一个位置都有风险指数r，满足0≤r≤1，风险指数越大，智能体的存活率就越低，风险指数是动态变化的，在环境初始化时，每一个位置的风险指数在0到1范围内随机采样，之后每过一个时间步，每一个位置的风险指数r都要加上风险增量Δr～N(0，1)，若r+Δr＞1，则r＝1，若r+Δr＜0，则r＝0；智能体集群A由许多智能体a∈A组成，每一个智能体都具有以下属性：位置p
pos
，速度p
vel
，能力大小a
abl
，存活率a
sur
；任务集合T由许多任务t∈T组成，每一个任务都具有以下属性：类型t
type
，位置t
pos
，大小t
size
，若该任务是辅助任务，则还具有以下属性：辅助范围t
range
，辅助系数t
co
，当辅助任务被完成后其辅助能力就得以体现，辅助范围表示为该辅助任务能够对以其自身为圆心，t
range
为半径的圆内的其它任务产生影响，该影响是指能减少范围内除自身外其它所有任务的大小，使t
size
＝t
size
*t
co
；辅助任务所处位置越危险，其辅助范围越小，因此，当辅助任务所处位置风险r＝0时，我们记其辅助范围为当环境发生变化时，有3.根据权利要求2所述的一种针对对抗场景下不确定性辅助任务的分层强化学习方法，其特征在于：智能体a完成任务t的时间分为两部分，分为两部分，表示智能体a移动至任务点t的时间，d(a，t)表示智能体a和任务点t的欧氏距离，表示智能体a执行任务t的时间，4.根据权利要求2所述的一种针对对抗场景下不确定性辅助任务的分层强化学习方法，其特征在于：智能体所处位置越危险，在环境中停留的时间越长，其存活率就越低，智能体的存活率表示为：其中表示t时刻智能体a所处位置的风险指数，该式表示，从初始时刻开始，每过一个时间步，智能体就计算当前所处位置的安全性然后将从t＝0开始至当前时刻所有的安全性求积，作为当前时刻智能体a的存活率。5.根据权利要求2所述的一种针对对抗场景下不确定性辅助任务的分层强化学习方法，其特征在于：每个智能体a首先将环境风险度信息嵌入到实体信息中，再从所有任务中提取出对自身重要的任务信息，在考虑其它智能体信息后自主决策出分配给自身的任务集合记这个为一次任务分配b
a
，所有智能体的任务分配组合成整个智能体集群A的任务分配策略集之后，每个智能体根据其b
a
计算得到其专属子环境z
a
，最后，每个智能体在各自的子环境中自主决策出完成任务所需的移动路径。6.根据权利要求5所述的一种针对对抗场景下不确定性辅助任务的分层强化学习方
法，其特征在于：首先将环境信息嵌入到实体信息中，以获取在智能体和任务附近的环境信息；然后使用FC+MHA网络从所有辅助任务中提取出对自身重要的辅助任务信息，其中距离自身较近、辅助能力较强、所处位置风险较低的辅助任务对自身而言可能是重要的；然后基于这个结果使用FC+MHA网络从所有主要任务中提取出对自身重要的主要任务信息，其中距离自身较近、所处位置风险较低的主要任务可能是重要的，并且，若某个主要任务与刚才提取出的重要辅助任务信息关联性较高，那么它可能也是重要的，其中，若某个主要任务在重要辅助任务的辅助范围内，那么它可能就与该辅助任务信息关联性较高；接着考虑其它...

【专利技术属性】
技术研发人员：蒋嶷川，陈文博，姜元爽，狄凯，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人