一种无人战车目标搜索策略生成方法技术

技术编号:35838340 阅读:14 留言:0更新日期:2022-12-03 14:09
本公开是关于一种无人战车目标搜索策略生成方法,包括:构建无人战车目标搜索策略生成模型,所述无人战车目标搜索策略生成模型包括多辆无人战车在任意时刻的状态集合,多辆所述无人战车在任意时刻的动作集合,以及多辆所述无人战车得到的环境反馈;利用元强化学习算法对所述无人战车目标搜索策略生成模型进行训练;在将加权损失函数参入进训练过程中,得到多辆所述无人战车的目标搜索策略;将得到的多辆所述无人战车的目标搜索策略部署在真实任务环境中。该方法能够解决元强化学习算法中存在的策略模型偏估计问题,提高了无人战车目标搜索行动策略生成的效率和质量。标搜索行动策略生成的效率和质量。标搜索行动策略生成的效率和质量。

【技术实现步骤摘要】
一种无人战车目标搜索策略生成方法


[0001]本公开涉及军事信息
,尤其涉及一种无人战车目标搜索策略生成方法。

技术介绍

[0002]无人战车是未来智能化战争中一支重要的作战力量,在未来战场上将发挥关键作用。但目前来说,无人战车尚未实现真正的无人化,在户外作战时,依旧需要士兵携带遥控器远程操控或利用卫星车远距离控制。
[0003]随着人工智能技术的发展,近年来常采用强化学习的策略生成方法,这种方法通过与对抗性任务环境的持续性的“交互式错”来直接学习生成策略,具有很强的鲁棒性和通用性。其中,元强化学习算法作为解决连续状态动作空间任务的典型深度强化学习方法,能够有效解决无人战车在面临高纬度、高动态战场环境下行动策略的生成问题,能够更加契合无人战车的行动策略生成的特点和规律。但元强化学习算法存在的显著问题是策略模型的偏估计问题,这将直接导致在较为复杂的任务环境中无人战车无法学习到有效的策略。因此,如何在有限的计算资源条件下,解决元强化学习算法中存在的策略模型偏估计问题,并提高无人战车目标搜索行动策略生成的效率和质量成为了亟待解决的问题。因此,有必要改善上述相关技术方案中存在的一个或者多个问题,以解决策略模型的偏估计问题。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开实施例的目的在于提供一种无人战车目标搜索策略生成方法,该方法能够解决策略模型的偏估计问题,并提高了无人战车目标搜索行动策略生成的效率和质量。
[0006]本公开实施例提供一种无人战车目标搜索策略生成方法,该方法包括以下步骤:
[0007]构建无人战车目标搜索策略生成模型,所述无人战车目标搜索策略生成模型包括多辆无人战车在任意时刻的状态集合,多辆所述无人战车在任意时刻的动作集合,以及多辆所述无人战车得到的环境反馈;
[0008]利用元强化学习算法对所述无人战车目标搜索策略生成模型进行训练;在将加权损失函数参入进训练过程中,得到多辆所述无人战车的目标搜索策略;
[0009]将得到的多辆所述无人战车的目标搜索策略部署在真实任务环境中。
[0010]本公开的一示例性实施例中,构建无人战车目标搜索策略生成模型的步骤包括:多辆所述无人战车在任意时刻t的环境状态集合s
t
;多辆所述无人战车根据所述环境状态集合s
t
中各自对应的状态做出相应动作组成的动作集合a
t
;以及多辆所述无人战车得到的环境反馈r
t

[0011]本公开的一示例性实施例中,所述环境状态集合s
t
的公式包括:
[0012]s
t
={(x1,y1),(x2,y2),(x3,y3),...,(x
n
,y
n
)}
[0013]其中,x和y分别表示每个无人战车的状态的横坐标和纵坐标,x∈[0,5000],y∈
[0,5000];n表示无人战车的编号。
[0014]本公开的一示例性实施例中,所述动作集合a
t
的公式包括:
[0015]a
t
={move1,move2,move3,move4,move5,move6,move7,move8}
[0016]其中,move1表示无人战车的机动动作向正东方向前进;move2表示无人战车的机动动作向东南方向前进;move3表示无人战车的机动动作向正南方向前进;move4表示无人战车的机动动作向西南方向前进;move5表示无人战车的机动动作向正西方向前进;move6表示无人战车的机动动作向西北方向前进;move7表示无人战车的机动动作向正北方向前进;move8无人战车的机动动作向东北方向前进;机动动作的取值范围包括move∈[0,50],0表示无人战车未作出动作,1

100表示无人战车行动的步数。
[0017]本公开的一示例性实施例中,所述环境反馈r
t
包括无人战车到达任一目标地点的奖励、无人战车触碰障碍的惩罚、无人战车触碰边界的惩罚和无人战车相碰的惩罚。
[0018]本公开的一示例性实施例中,利用元强化学习算法对所述无人战车目标搜索策略生成模型进行训练;在将加权损失函数参入进训练过程中,得到多辆所述无人战车的目标搜索策略的步骤中,所述无人战车目标搜索策略生成模型进行训练的过程中包括多个参数,多个所述参数包括:
[0019]策略生成模型为π
θ
,目标搜索任务分布为D(T),基础学习率为α,元学习率为β,外循环时间为M,采样数量为N。
[0020]本公开的一示例性实施例中,利用元强化学习算法对所述无人战车目标搜索策略生成模型进行训练;在将加权损失函数参入进训练过程中,得到多辆所述无人战车的目标搜索策略的步骤中,所述加权损失函数的计算公式包括:
[0021][0022]其中,为求导符号,表示第k条轨迹的权重,表示第k条轨迹的损失函数。
[0023]本公开的一示例性实施例中,得到多辆所述无人战车的目标搜索策略的过程包括:
[0024]将多个所述参数初始化;
[0025]初始化时刻t=1;
[0026]从所述目标搜索任务分布D(T)中采集N个任务样本;
[0027]针对每个任务样本,根据所述策略生成模型π
θ
,采样K条轨迹
[0028]根据所述轨迹和损失函数计算梯度
[0029]利用梯度下降法得到优化后的参数θ';得到新的策略生成模型π
θ'
,采样C条轨迹
[0030]计算C条轨迹中每条轨迹在损失函数中所占权重;
[0031]利用C条轨迹和权重进行元更新:
[0032]其中,

表示赋值运算的意思;
[0033]若当所述t时刻的大小等于所述外循环时间M,得到多辆所述无人战车的目标搜索策略。
[0034]本公开的一示例性实施例中,得到多辆所述无人战车的目标搜索策略的过程包括,
[0035]将多个所述参数初始化;
[0036]初始化时刻t=1;
[0037]从所述目标搜索任务分布D(T)中采集N个任务样本;
[0038]针对每个任务样本,根据所述策略生成模型π
θ
,采样K条轨迹
[0039]根据所述轨迹和损失函数计算梯度
[0040]利用梯度下降法得到优化后的参数θ';得到新的策略生成模型π
θ'
,采样C条轨迹
[0041]计算C条轨迹中每条轨迹在损失函数中所占权重;
[0042]利用C条轨迹和权重进行元更新:
[0043]其中,

表示赋值运算的意思;
[0044]若当所述t时刻的大小不等于所述外循环时间M本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无人战车目标搜索策略生成方法,其特征在于,包括以下步骤:构建无人战车目标搜索策略生成模型,所述无人战车目标搜索策略生成模型包括多辆无人战车在任意时刻的状态集合,多辆所述无人战车在任意时刻的动作集合,以及多辆所述无人战车得到的环境反馈;利用元强化学习算法对所述无人战车目标搜索策略生成模型进行训练;将加权损失函数引入训练过程,得到多辆所述无人战车的目标搜索策略;将得到的多辆所述无人战车的目标搜索策略部署在真实任务环境中。2.根据权利要求1所述无人战车目标搜索策略生成方法,其特征在于,构建无人战车目标搜索策略生成模型的步骤包括:多辆所述无人战车在任意时刻t的环境状态集合s
t
;多辆所述无人战车根据所述环境状态集合s
t
中各自对应的状态做出相应动作组成的动作集合a
t
;以及多辆所述无人战车得到的环境反馈r
t
。3.根据权利要求2所述无人战车目标搜索策略生成方法,其特征在于,所述环境状态集合s
t
的公式包括:s
t
={(x1,y1),(x2,y2),(x3,y3),...,(x
n
,y
n
)}其中,x和y分别表示每个无人战车的状态的横坐标和纵坐标,x∈[0,5000],y∈[0,5000];n表示无人战车的编号。4.根据权利要求3所述无人战车目标搜索策略生成方法,其特征在于,所述动作集合a
t
的公式包括:a
t
={move1,move2,move3,move4,move5,move6,move7,move8}其中,move1表示无人战车的机动动作向正东方向前进;move2表示无人战车的机动动作向东南方向前进;move3表示无人战车的机动动作向正南方向前进;move4表示无人战车的机动动作向西南方向前进;move5表示无人战车的机动动作向正西方向前进;move6表示无人战车的机动动作向西北方向前进;move7表示无人战车的机动动作向正北方向前进;move8无人战车的机动动作向东北方向前进;机动动作的取值范围包括move∈[0,50],0表示无人战车未作出动作,1

100表示无人战车行动的步数。5.根据权利要求4所述无人战车目标搜索策略生成方法,其特征在于,所述环境反馈r
t
包括无人战车到达任一目标地点的奖励、无人战车触碰障碍的惩罚、无人战车触碰边界的惩罚和无人战车相碰的惩罚。6.根据权利要求5所述无人战车目标搜索策略生成方法,其特征在于,利用元强化学习算法对所述无人战车目标搜索策略生成模型进行...

【专利技术属性】
技术研发人员:徐志雄李爱玲陈希亮赵菲菲张明胡文雷王婧张笑
申请(专利权)人:中国人民解放军陆军边海防学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1