【技术实现步骤摘要】
本专利技术涉及无人机空战决策,特别是关于一种用于无人机空战决策的强化学习模型训练方法。
技术介绍
1、近年来,深度强化学习是实现智能体最优决策的重要方法之一,其核心思想是学习智能体与环境互动,并通过试错和积累经验来进行决策。在这个过程中,深度强化学习主要关注如何采取行动来最大化数值奖励。
2、然而,本申请的专利技术人在研究中发现,在无人机空战决策领域,强化学习环境具有决策空间大、任务规划期长的特点,依靠奖惩机制进行学习的强化学习模型会产生奖励稀疏、探索过度或探索不足等问题,最终会影响强化学习训练效率。因而,在无人机空战决策领域,存在者构建奖励函数比较困难的问题,容易导致智能体(无人机)学习到次优或错误行为。
技术实现思路
1、针对上述问题,本专利技术的目的是提供一种用于无人机空战决策的强化学习模型训练方法,在模型的训练过程中,利用大语言模型参与奖励函数的设计,解决奖励稀疏问题,减少强化学习模型前期行为的探索空间,提升训练效率,从而得到可以优化空战决策的强化学习模型。
【技术保护点】
1.一种用于无人机空战决策的强化学习模型训练方法,其特征在于,所述训练方法包括若干训练轮次,在每一训练轮次中,包括:
2.根据权利要求1所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,所述奖励函数的计算公式为:
3.根据权利要求2所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,预测增益奖励与所述决策差成反比例关系;
4.根据权利要求3所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,所述方法还包括:预先确定所述大语言模型的步骤;
5.根据权利要求4所述的用于无人机空战决策的强化学习模型训
...【技术特征摘要】
1.一种用于无人机空战决策的强化学习模型训练方法,其特征在于,所述训练方法包括若干训练轮次,在每一训练轮次中,包括:
2.根据权利要求1所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,所述奖励函数的计算公式为:
3.根据权利要求2所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,预测增益奖励与所述决策差成反比例关系;
4.根据权利要求3所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,所述方法还包括:预先确定所述大语言模型的步骤;
5.根据权利要求4所述的用于无人机空战决策的强化学习模型训练方法,其特征在于,确定后的大语言模型,获取到输入数据后,优先基于结构化的知识库,根据战场环境数据的向量表达,查询对应的决策数据,输出决策数据的向量表达;
6.根据权利要求2所述的...
【专利技术属性】
技术研发人员:薛健,向贤财,赵琳,吕科,张宝琳,
申请(专利权)人:中国科学院大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。