一种用于无人机空战决策的强化学习模型训练方法技术

技术编号：40823389 阅读：5 留言：0更新日期：2024-04-01 14:43

本发明专利技术涉及一种用于无人机空战决策的强化学习模型训练方法，包括若干训练轮次，在每一训练轮次中，包括：(1)设置网络架构和网络参数；(2)获取输入数据，并输入到当前训练轮次的强化学习模型中，得到输出数据；(3)根据强化学习模型输出的决策数据，计算当前训练轮次的奖励函数，奖励函数由基本奖励和预测增益奖励叠加得到，其中，所述预测增益奖励由决策差确定，所述决策差为所述强化学习模型与预先确定的大语言模型针对所述输入数据输出的决策数据之间的差别；(4)根据当前训练轮次的奖励函数，调整强化学习模型的网络参数，得到下下一训练轮次的初始网络参数；(5)返回(1)执行下一训练轮次，直到达到预设的停止条件。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人机空战决策，特别是关于一种用于无人机空战决策的强化学习模型训练方法。

技术介绍

1、近年来，深度强化学习是实现智能体最优决策的重要方法之一，其核心思想是学习智能体与环境互动，并通过试错和积累经验来进行决策。在这个过程中，深度强化学习主要关注如何采取行动来最大化数值奖励。

2、然而，本申请的专利技术人在研究中发现，在无人机空战决策领域，强化学习环境具有决策空间大、任务规划期长的特点，依靠奖惩机制进行学习的强化学习模型会产生奖励稀疏、探索过度或探索不足等问题，最终会影响强化学习训练效率。因而，在无人机空战决策领域，存在者构建奖励函数比较困难的问题，容易导致智能体(无人机)学习到次优或错误行为。

技术实现思路

1、针对上述问题，本专利技术的目的是提供一种用于无人机空战决策的强化学习模型训练方法，在模型的训练过程中，利用大语言模型参与奖励函数的设计，解决奖励稀疏问题，减少强化学习模型前期行为的探索空间，提升训练效率，从而得到可以优化空战决策的强化学习模型。

2、为实现上述目的，本专利技术采取以下技术方案：

3、第一方面，本申请提供一种用于无人机空战决策的强化学习模型训练方法，所述训练方法包括若干训练轮次，在每一训练轮次中，包括：

4、(1)设置当前训练轮次中强化学习模型的网络架构和初始网络参数；

5、(2)获取输入数据，并输入到当前训练轮次的强化学习模型中，得到输出数据，其中所述输入数据包括战场环境数据和空战类型

6、(3)根据强化学习模型输出的决策数据，计算当前训练轮次的奖励函数，所述当前训练轮次的奖励函数由基本奖励和预测增益奖励叠加得到，其中，所述基本奖励与空战类型数据和战场环境数据相关；所述预测增益奖励由决策差确定，所述决策差为所述强化学习模型与预先确定的大语言模型针对所述输入数据输出的决策数据之间的差别；

7、(4)根据当前训练轮次的奖励函数，调整强化学习模型的网络参数，得到下下一训练轮次的初始网络参数；

8、(5)返回(1)执行下一训练轮次，直到训练达到预设的停止条件。

9、在本申请的一种实现方式中，所述奖励函数的计算公式为：

10、rtotal＝(1-α(t))*rbaseline+α(t)*rllm

11、其中，t为时间序列；rtotal为奖励函数；rbaseline为基本奖励；rllm为预测增益奖励；α(t)为预设的时间函数关系。

12、在本申请的一种实现方式中，预测增益奖励与所述决策差成反比例关系；

13、所述决策差为所述强化学习模型与预先训练的大语言模型针对所述输入数据输出的决策数据之间的向量差。

14、在本申请的一种实现方式中，所述方法还包括：预先确定所述大语言模型的步骤；

15、所述预先确定所述大语言模型，包括：

16、选择设定网络结构和初始网络参数的大语言模型；

17、从历史数据中获取数据集，包括问答数据集和决策数据集，其中，问答数据集包括设定的空战类型数据下的战场环境数据与决策数据的文本数据对；决策数据集为专家仿真环境下的设定空战类型数据下的战场环境数据与决策数据的时序化数据；

18、根据所述问答数据集，微调大语言模型的网络参数，使大语言模型的网络结构具有空战决策的预测能力；

19、根据所述决策数据集，建立结构化的知识库，用于供大语言模型进行调用和查询。

20、在本申请的一种实现方式中，确定后的大语言模型，获取到输入数据后，优先基于结构化的知识库，根据战场环境数据的向量表达，查询对应的决策数据，输出决策数据的向量表达；

21、所述确定后的大语言模型，在所述结构化的知识库无相应的战场环境数据的向量表达后，将战场环境数据的向量表达转换为文本数据，再基于自身的网络结构预测对应的决策数据的文本，再将文本转换为决策数据的向量表达输出。

22、在本申请的一种实现方式中，所述α(t)具有随时间衰减的函数关系。

23、在本申请的一种实现方式中，所述α(t)为负线性时间衰减、反比例时间衰减或负指数衰减函数关系。

24、在本申请的一种实现方式中，所述战场环境数据，包括无人机观测到的自身和敌机的运动学参数；

25、所述决策数据，包括无人机所确定的自身的动作状态空间的指令。

26、在本申请的一种实现方式中，所述运动学参数，包括位置坐标、运动角度和运动速度；

27、动作状态空间，包括机翼控制、升降舵控制、方向舵控制以及油门控制。

28、第二方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在设备执行第一方面所述的用于无人机空战决策的强化学习模型训练方法。

29、本专利技术由于采取以上技术方案，其具有以下优点：(1)训练大语言模型作为空战任务的决策专家，并根据空战任务决策数据集构建知识库，能够实现空战任务中的精确预测，以较小的经济及时间成本实现高效的训练效果。(2)大语言模型的预测奖励与深度强化学习奖励相结合，利用大语言模型训练辅助无人机决策，不仅能够加快训练过程，也能提升模型的预测和决策能力。(3)克服大语言模型反馈时间限制难题，用异步更新策略解决语言模型与深度强化学习模型反馈时差问题。

本文档来自技高网...

【技术保护点】

1.一种用于无人机空战决策的强化学习模型训练方法，其特征在于，所述训练方法包括若干训练轮次，在每一训练轮次中，包括：

2.根据权利要求1所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述奖励函数的计算公式为：

3.根据权利要求2所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，预测增益奖励与所述决策差成反比例关系；

4.根据权利要求3所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述方法还包括：预先确定所述大语言模型的步骤；

5.根据权利要求4所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，确定后的大语言模型，获取到输入数据后，优先基于结构化的知识库，根据战场环境数据的向量表达，查询对应的决策数据，输出决策数据的向量表达；

6.根据权利要求2所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述α(t)具有随时间衰减的函数关系。

7.根据权利要求6所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述α(t)为负线性时间衰减、反比例时间衰减或负指数衰减函数关系。

8.根据权利要求1所述的用于无人机空战决策的强化学习模型训练方法，其特征在，所述战场环境数据，包括无人机观测到的自身和敌机的运动学参数；

9.根据权利要求8所述的用于无人机空战决策的强化学习模型训练方法，其特征在，所述运动学参数，包括位置坐标、运动角度和运动速度；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9任一项所述的用于无人机空战决策的强化学习模型训练方法。

...

【技术特征摘要】

1.一种用于无人机空战决策的强化学习模型训练方法，其特征在于，所述训练方法包括若干训练轮次，在每一训练轮次中，包括：

2.根据权利要求1所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述奖励函数的计算公式为：

3.根据权利要求2所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，预测增益奖励与所述决策差成反比例关系；

4.根据权利要求3所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述方法还包括：预先确定所述大语言模型的步骤；

6.根据权利要求2所述的...

【专利技术属性】
技术研发人员：薛健，向贤财，赵琳，吕科，张宝琳，
申请(专利权)人：中国科学院大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人