一种用于无人机空战决策的强化学习模型训练方法技术

技术编号:40823389 阅读:25 留言:0更新日期:2024-04-01 14:43
本发明专利技术涉及一种用于无人机空战决策的强化学习模型训练方法,包括若干训练轮次,在每一训练轮次中,包括:(1)设置网络架构和网络参数;(2)获取输入数据,并输入到当前训练轮次的强化学习模型中,得到输出数据;(3)根据强化学习模型输出的决策数据,计算当前训练轮次的奖励函数,奖励函数由基本奖励和预测增益奖励叠加得到,其中,所述预测增益奖励由决策差确定,所述决策差为所述强化学习模型与预先确定的大语言模型针对所述输入数据输出的决策数据之间的差别;(4)根据当前训练轮次的奖励函数,调整强化学习模型的网络参数,得到下下一训练轮次的初始网络参数;(5)返回(1)执行下一训练轮次,直到达到预设的停止条件。

【技术实现步骤摘要】

本专利技术涉及无人机空战决策,特别是关于一种用于无人机空战决策的强化学习模型训练方法


技术介绍

1、近年来,深度强化学习是实现智能体最优决策的重要方法之一,其核心思想是学习智能体与环境互动,并通过试错和积累经验来进行决策。在这个过程中,深度强化学习主要关注如何采取行动来最大化数值奖励。

2、然而,本申请的专利技术人在研究中发现,在无人机空战决策领域,强化学习环境具有决策空间大、任务规划期长的特点,依靠奖惩机制进行学习的强化学习模型会产生奖励稀疏、探索过度或探索不足等问题,最终会影响强化学习训练效率。因而,在无人机空战决策领域,存在者构建奖励函数比较困难的问题,容易导致智能体(无人机)学习到次优或错误行为。


技术实现思路

1、针对上述问题,本专利技术的目的是提供一种用于无人机空战决策的强化学习模型训练方法,在模型的训练过程中,利用大语言模型参与奖励函数的设计,解决奖励稀疏问题,减少强化学习模型前期行为的探索空间,提升训练效率,从而得到可以优化空战决策的强化学习模型。

>2、为实现上述目的本文档来自技高网...

【技术保护点】

1.一种用于无人机空战决策的强化学习模型训练方法,其特征在于,所述训练方法包括若干训练轮次,在每一训练轮次中,包括:

2.根据权利要求1所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,所述奖励函数的计算公式为:

3.根据权利要求2所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,预测增益奖励与所述决策差成反比例关系;

4.根据权利要求3所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,所述方法还包括:预先确定所述大语言模型的步骤;

5.根据权利要求4所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,...

【技术特征摘要】

1.一种用于无人机空战决策的强化学习模型训练方法,其特征在于,所述训练方法包括若干训练轮次,在每一训练轮次中,包括:

2.根据权利要求1所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,所述奖励函数的计算公式为:

3.根据权利要求2所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,预测增益奖励与所述决策差成反比例关系;

4.根据权利要求3所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,所述方法还包括:预先确定所述大语言模型的步骤;

5.根据权利要求4所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,确定后的大语言模型,获取到输入数据后,优先基于结构化的知识库,根据战场环境数据的向量表达,查询对应的决策数据,输出决策数据的向量表达;

6.根据权利要求2所述的...

【专利技术属性】
技术研发人员:薛健向贤财赵琳吕科张宝琳
申请(专利权)人:中国科学院大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1