【技术实现步骤摘要】
一种无人战车目标搜索策略生成方法
[0001]本公开涉及军事信息
,尤其涉及一种无人战车目标搜索策略生成方法。
技术介绍
[0002]无人战车是未来智能化战争中一支重要的作战力量,在未来战场上将发挥关键作用。但目前来说,无人战车尚未实现真正的无人化,在户外作战时,依旧需要士兵携带遥控器远程操控或利用卫星车远距离控制。
[0003]随着人工智能技术的发展,近年来常采用强化学习的策略生成方法,这种方法通过与对抗性任务环境的持续性的“交互式错”来直接学习生成策略,具有很强的鲁棒性和通用性。其中,元强化学习算法作为解决连续状态动作空间任务的典型深度强化学习方法,能够有效解决无人战车在面临高纬度、高动态战场环境下行动策略的生成问题,能够更加契合无人战车的行动策略生成的特点和规律。但元强化学习算法存在的显著问题是策略模型的偏估计问题,这将直接导致在较为复杂的任务环境中无人战车无法学习到有效的策略。因此,如何在有限的计算资源条件下,解决元强化学习算法中存在的策略模型偏估计问题,并提高无人战车目标搜索行动策略生成的效率和质量成为了亟待解决的问题。因此,有必要改善上述相关技术方案中存在的一个或者多个问题,以解决策略模型的偏估计问题。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0005]本公开实施例的目的在于提供一种无人战车目标搜索策略生成方法,该方法能够解决策略模型的偏估计问题 ...
【技术保护点】
【技术特征摘要】
1.一种无人战车目标搜索策略生成方法,其特征在于,包括以下步骤:构建无人战车目标搜索策略生成模型,所述无人战车目标搜索策略生成模型包括多辆无人战车在任意时刻的状态集合,多辆所述无人战车在任意时刻的动作集合,以及多辆所述无人战车得到的环境反馈;利用元强化学习算法对所述无人战车目标搜索策略生成模型进行训练;将加权损失函数引入训练过程,得到多辆所述无人战车的目标搜索策略;将得到的多辆所述无人战车的目标搜索策略部署在真实任务环境中。2.根据权利要求1所述无人战车目标搜索策略生成方法,其特征在于,构建无人战车目标搜索策略生成模型的步骤包括:多辆所述无人战车在任意时刻t的环境状态集合s
t
;多辆所述无人战车根据所述环境状态集合s
t
中各自对应的状态做出相应动作组成的动作集合a
t
;以及多辆所述无人战车得到的环境反馈r
t
。3.根据权利要求2所述无人战车目标搜索策略生成方法,其特征在于,所述环境状态集合s
t
的公式包括:s
t
={(x1,y1),(x2,y2),(x3,y3),...,(x
n
,y
n
)}其中,x和y分别表示每个无人战车的状态的横坐标和纵坐标,x∈[0,5000],y∈[0,5000];n表示无人战车的编号。4.根据权利要求3所述无人战车目标搜索策略生成方法,其特征在于,所述动作集合a
t
的公式包括:a
t
={move1,move2,move3,move4,move5,move6,move7,move8}其中,move1表示无人战车的机动动作向正东方向前进;move2表示无人战车的机动动作向东南方向前进;move3表示无人战车的机动动作向正南方向前进;move4表示无人战车的机动动作向西南方向前进;move5表示无人战车的机动动作向正西方向前进;move6表示无人战车的机动动作向西北方向前进;move7表示无人战车的机动动作向正北方向前进;move8无人战车的机动动作向东北方向前进;机动动作的取值范围包括move∈[0,50],0表示无人战车未作出动作,1
‑
100表示无人战车行动的步数。5.根据权利要求4所述无人战车目标搜索策略生成方法,其特征在于,所述环境反馈r
t
包括无人战车到达任一目标地点的奖励、无人战车触碰障碍的惩罚、无人战车触碰边界的惩罚和无人战车相碰的惩罚。6.根据权利要求5所述无人战车目标搜索策略生成方法,其特征在于,利用元强化学习算法对所述无人战车目标搜索策略生成模型进行...
【专利技术属性】
技术研发人员:徐志雄,李爱玲,陈希亮,赵菲菲,张明,胡文雷,王婧,张笑,
申请(专利权)人:中国人民解放军陆军边海防学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。