当前位置: 首页 > 专利查询>厦门大学专利>正文

一种渐进式深度强化学习的无人载具对抗与避障方法技术

技术编号:37849502 阅读:10 留言:0更新日期:2023-06-14 22:36
本发明专利技术涉及一种渐进式深度强化学习的无人载具对抗与避障方法,包括以下步骤:S1,根据无人载具的运动学模型,通过龙格库塔方法进行求解建模;S2,通过计算机模拟多台无人载具系统的自主决策过程;S3,设计并优化渐进式自博弈SAC算法的批判者神经网络和执行者神经网络的形式、大小和数量,针对无人载具的真实运动情况构建执行者神经网络、策略熵系数α的目标损失函数,并结合熵增机制和训练课程难度,设计自动熵,得到渐进式自博弈SAC算法;S4,利用所述渐进式自博弈SAC算法自调节所述训练课程难度并执行自博弈过程,完成一次学习课程;S5,重复执行步骤S4,得到完成训练的执行者神经网络用于生成无人载具对抗与避障的实时决策。络用于生成无人载具对抗与避障的实时决策。络用于生成无人载具对抗与避障的实时决策。

【技术实现步骤摘要】
一种渐进式深度强化学习的无人载具对抗与避障方法


[0001]本专利技术涉及深度强化学习领域,具体指有一种渐进式深度强化学习的无人载具对抗与避障方法。

技术介绍

[0002]随着传感器技术、计算机技术和通信技术的快速发展,军用和民用无人载具的性能均得到了显著的提升。自主决策是目前无人载具系统研究的核心研究内容之一,对于扩大无人载具应用的场景和功能都具有十分重要的价值。在军用领域,无人载具比有人载具能够完成更多高难度的复杂任务,因而成为各国争相发展的武器装备。无人载具在产品种类、应用领域和执行任务的能力方面都具有远超越有人载具的优势,但目前大部分无人载具在执行任务时仍离不开远程控制人员的操作和决策。这种工作模式使得无人载具的应用仍然极大依赖无线通讯技术和远程控制人员的决策能力,很容易受到通讯条件以及远程操作者决策能力的制约,难以适应高度动态化的应用场景,尤其是军事领域复杂多变的战场态势。在众多针对无人载具自主决策系统的研究工作中,自主决策方案通常采用优化原理、人工智能等技术,自动生成各种应用场景下的自主决策指令。在理论层面,解决自主决策问题的理论方法大致可分为三类,分别为:博弈论、最优化理论和人工智能方法。其中基于博弈论的方法主要通过建立数学模型来直接反映对抗过程中的态势,并通过微分对策和影响图算法形成最优决策。当面对高度动态化的战场态势时,往往由于模型过于复杂,最优决策难以实时求解,因此实际应用仍然存在较大困难。基于最优化理论的遗传算法、贝叶斯推理和统计理论等方法则将问题转化为最优化问题进行数学求解,从而得到自主最优策略。然而,面对大规模问题时同样存在决策求解实时性较差的问题,同时在面对大量的非凸优化问题也很难保证解的最优性。此外,以上方法多用于离线的战术优化研究。基于人工智能的方法包括专家系统、神经网络和强化学习方法。专家系统方法的核心是根据专家经验将作决策行为描述为一个规则库,然后根据具体情况通过规则推理形成控制指令。其中规则库的建立较为复杂,并且作为固定策略也容易被破解。神经网络方法则是将自主决策行为看作一个“黑盒”,通过对大量有效对抗样本数据的学习来形成对抗策略。但实际应用中有效学习样本的获取较为困难,且自主决策的性能受样本数据性能的限制,难以达成进一步的优化。与上述方法相比,基于强化学习的方法既不需要专家提供规则库,也不依赖环境模型,而是在优化原理的基础上,通过智能体与环境的交互,利用环境反馈的状态信息和奖赏信号,通过在线或离线的学习算法来不断地优化策略,并最终获得最优策略。此外,强化学习的决策行为一般采用神经网络表达,在充分训练的前提下,不仅具有很强的非线性表达能力,同时还具有很好的泛化性能,可以使得最终获得的自主决策方案同时具有性能上的最优性和环境适应能力方面的良好鲁棒性。因此,目前强化学习方法成为了解决无人载具自主决策问题的一种有效解决方案。
[0003]在无人载具的自主决策研究领域,无人机的自主机动和对抗决策问题广受关注。目前,在该研究方向基于强化学习方案的大多以DQN算法为主,通过将无人机的决策行为分
解为一系列离散动作,来降低自主决策问题求解和优化的复杂度,但这种简化造成与真实情况差别较大,对抗性能难以得到保证。若要尽可能符合真实情况,设计问题往往需要面对连续和高维度的状态和动作空间,容易造成强化学习过程的维度灾难和稀疏奖赏问题,学习效率极低。虽然DDPG算法能够用于连续状态和动作空间的策略优化问题,但该算法设计中超参数众多,而且训练容易陷入局部最优,原始SAC算法作为一种更先进的强化学习算法,虽然超参数较少,但也难以解决奖赏稀疏、环境复杂多变以及同时存在多种任务的自主对抗决策问题。综上,目前将该智能决策技术用于无人载具的自主决策时,仍然存在因为环境模型复杂、状态空间维度高且奖赏信息稀疏等问题,使得传统强化学习算法训练效率普遍较低,难以得到最优策略的问题。
[0004]针对上述的现有技术存在的问题设计一种渐进式深度强化学习的无人载具对抗与避障方法是本专利技术研究的目的。

技术实现思路

[0005]针对上述现有技术存在的问题,本专利技术在于提供一种渐进式深度强化学习的无人载具对抗与避障方法,能够有效解决上述现有技术存在的至少一个问题。
[0006]本专利技术的技术方案是:
[0007]一种渐进式深度强化学习的无人载具对抗与避障方法,包括以下步骤:
[0008]S1,根据无人载具的运动学模型,通过龙格库塔方法进行求解建模,构建为Python环境下的标准gym环境类,根据真实情况将无人载具自身状态和环境观测的状态数据作为必要的要素进行数学形式表述和计算机语言描述;
[0009]S2,通过计算机模拟多台无人载具系统的自主决策过程,产生无人载具运动过程和决策行为的模拟数据;
[0010]S3,设计并优化渐进式自博弈SAC算法的批判者神经网络和执行者神经网络的形式、大小和数量,针对无人载具的真实运动情况构建执行者神经网络、策略熵系数α的目标损失函数,并结合熵增机制和训练课程难度,设计自动熵,并针对无人载具决策场景的复杂程度设计随训练过程递增的课程学习机制以及对抗对手的策略类型和强度,得到渐进式自博弈SAC算法;
[0011]S4,利用所述渐进式自博弈SAC算法自调节所述训练课程难度并执行自博弈过程,生成无人载具的多个决策数据并放入经验回放池进行不同课程学习数据的更新,平均采样经验回放池最新数据并更新所述批判者神经网络和执行者神经网络的参数,完成一次学习课程;
[0012]S5,重复执行步骤S4,使批判者神经网络和执行者神经网络完成若干次学习课程,得到完成训练的执行者神经网络用于生成无人载具对抗与避障的实时决策。
[0013]进一步地,S1中,所述自身状态和环境观测的状态数据包括所述无人载具的位置坐标、实时速度、偏航角度,以及障碍物距离,以及对抗对手的位置坐标、实时速度、偏航角度其中的一种或多种。
[0014]进一步地,设计并优化渐进式自博弈SAC算法的批判者神经网络和执行者神经网络的形式、大小和数量得到的结果为:
[0015]所述批判者神经网络采用两层隐藏层的全连接神经网络结构,每层神经元数目为
256,所述批判者神经网络数量为两个及以上,每个判家神经网络对应一个低频更新的目标批判者神经网络。
[0016]进一步地,针对无人载具的真实运动情况构建执行者神经网络的目标损失函数包括:
[0017]基于策略熵机制提供探索能力,设计平衡探索能力和策略优化的损失函数;
[0018]设计得到的损失函数J
π
(φ)满足公式1:
[0019][0020]其中,E为数学期望,s
t
为无人载具的当前状态数据,为经验回放池,a
t
为执行者神经网络所输出的动作,通过神经网络强大的表达能力,将π
φ
建模为产生状态到具体动作映射的执行者策略网络,φ为执行者神经网络的参数,π
φ
(a
t
|s
t
)表示当给本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种渐进式深度强化学习的无人载具对抗与避障方法,其特征在于:包括以下步骤:S1,根据无人载具的运动学模型,通过龙格库塔方法进行求解建模,构建为Python环境下的标准gym环境类,根据真实情况将无人载具自身状态和环境观测的状态数据作为必要的要素进行数学形式表述和计算机语言描述;S2,通过计算机模拟多台无人载具系统的自主决策过程,产生无人载具运动过程和决策行为的模拟数据;S3,设计并优化渐进式自博弈SAC算法的批判者神经网络和执行者神经网络的形式、大小和数量,针对无人载具的真实运动情况构建执行者神经网络、策略熵系数α的目标损失函数,并结合熵增机制和训练课程难度,设计自动熵,并针对无人载具决策场景的复杂程度设计随训练过程递增的课程学习机制以及对抗对手的策略类型和强度,得到渐进式自博弈SAC算法;S4,利用所述渐进式自博弈SAC算法自调节所述训练课程难度并执行自博弈过程,生成无人载具的多个决策数据并放入经验回放池进行不同课程学习数据的更新,平均采样经验回放池最新数据并更新所述批判者神经网络和执行者神经网络的参数,完成一次学习课程;S5,重复执行步骤S4,使批判者神经网络和执行者神经网络完成若干次学习课程,得到完成训练的执行者神经网络用于生成无人载具对抗与避障的实时决策。2.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法,其特征在于:S1中,所述自身状态和环境观测的状态数据包括所述无人载具的位置坐标、实时速度、偏航角度,以及障碍物距离,以及对抗对手的位置坐标、实时速度、偏航角度其中的一种或多种。3.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法,其特征在于:设计并优化渐进式自博弈SAC算法的批判者神经网络和执行者神经网络的形式、大小和数量得到的结果为:所述批判者神经网络采用两层隐藏层的全连接神经网络结构,每层神经元数目为256,所述批判者神经网络数量为两个及以上,每个判家神经网络对应一个低频更新的目标批判者神经网络。4.根据权利要求1所述的一种渐进式深度强化学习的无人载具对抗与避障方法,其特征在于:针对无人载具的真实运动情况构建执行者神经网络的目标损失函数包括:基于策略熵机制提供探索能力,设计平衡探索能力和策略优化的损失函数;设计得到的损失函数J
π
(φ)满足公式1:其中,E为数学期望,s
t
为无人载具的当前状态数据,为经验回放池,a
t
为执行者神经网络所输出的动作,通过神经网络强大的表达能力,将π
φ
建模为产生状态到具体动作映射的执行者策略网络,φ为执行者神经网络的参数,π
φ
(a
t
|s
t
)表示当给定状态s

【专利技术属性】
技术研发人员:师佳马成栋洪文晶
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1