System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能领域,特别是涉及一种基于融合塑造奖励的具有轨迹判别能力的世界模型的智能空战决策方法、系统及电子设备。
技术介绍
1、近年来,人工智能技术迅速发展,各类算法层出不穷,尤其是深度学习在计算机视觉和自然语言处理等领域的应用取得了巨大的成果。随着计算机硬件和存储技术的进步,很多基于强化学习技术的算法被提出,这些算法主要用于解决简单的强化学习问题,如迷宫游戏等,但处理高维输入数据仍然十分困难,难以解决复杂问题。在近年来,深度学习技术和神经网络结构的发展极大地推进了强化学习的发展。深度学习算法的优势在于,它可以从数据中自动提取特征,这大大提高了强化学习算法的鲁棒性和性能,为强化学习领域的发展提供了更强的动力和支持。
2、随着计算机技术、人工智能技术不断发展,越来越多的人工智能算法被应用到了空战中,包括专家系统方法、监督学习算法、强化学习算法等。专家系统是一种基于知识表示和推理的人工智能技术,它利用专家知识库中的规则和条件,通过推理来决定最优的机动或飞行路径,以实现飞机的自动导航。2016年,辛辛那提大学提出了一种利用遗传模糊树方法训练空战人工智能(artificial intelligence,ai)系统的方法。他们建立了一个名为alpha的系统,在模拟环境中击败了退休的上校gene lee,展示了用人工智能取代传统策略的可能性。由于专家系统是基于专家知识进行决策,因此专家系统具有较高的可靠性和可解释性。然而该方法完全依赖于专家知识,并且缺乏适应环境变化所需的灵活性和能力,鲁棒性较差。
3、监督
4、深度强化学习是近年来备受关注的一种算法,它可以直接处理高维度、连续空间的问题,具有很强的自主学习和实时决策的能力。但目前很多方法依旧依赖动作库的限制,并且强化学习算法在空战中仍然面临着奖励稀疏以及算法样本效率过低等问题,导致空战策略不够精准。
技术实现思路
1、本专利技术的目的是提供一种智能空战决策方法、系统及电子设备,可提高空战策略的准确度。
2、为实现上述目的,本专利技术提供了如下方案:
3、一种智能空战决策方法,包括:
4、针对任一飞机,获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作;
5、根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作,基于空战策略模型,确定当前时刻所述飞机的动作,以调整所述飞机的运行状态;所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的;所述空战策略模型包括状态预测模型及动作预测模型;所述状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的;所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作;所述动作预测模型为预先基于融合奖励,根据历史设定时段内飞机的隐状态,对演员评论家模型进行训练得到的;所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作,确定当前时刻飞机的隐状态;所述动作预测模型用于根据当前时刻飞机的隐状态,确定当前时刻飞机的动作。
6、可选地,所述飞机的观测数据包括位置及速度;所述飞机的动作为执行机构的操控量。
7、可选地,所述空战策略模型的训练过程包括:
8、针对任一次智能体联盟对抗训练,根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作,采用世界模型,确定t时刻的预测隐状态及t时刻的奖励;t时刻为历史设定时段内的任一时刻;
9、根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作,采用轨迹判别器,确定t时刻的判别数据;
10、根据t时刻的预测隐状态、t时刻的真实隐状态及t时刻的判别数据,确定世界模型的目标函数,并基于世界模型的目标函数对世界模型进行迭代训练,以得到状态预测模型;
11、根据t时刻的预测隐状态,采用演员评论家模型,确定t时刻的预测动作;
12、基于能量机动理论和态势评估方法,根据t时刻的奖励,确定t时刻的融合奖励;
13、根据t时刻的判别数据及t时刻的融合奖励,确定演员评论家模型的目标函数,并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练,以得到动作预测模型。
14、可选地,所述演员评论家模型包括演员模型及评论家模型;
15、根据t时刻的预测隐状态,采用演员评论家模型,确定t时刻的预测动作,具体包括:
16、根据t时刻的预测隐状态,采用评论家模型,确定预测状态价值;
17、根据预测状态价值,采用演员模型,确定t时刻的预测动作。
18、可选地,根据t时刻的判别数据及t时刻的融合奖励,确定演员评论家模型的目标函数,并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练,具体包括:
19、根据t时刻的融合奖励,确定真实状态价值;
20、根据所述预测状态价值及所述真实状态价值,确定评论家模型的目标函数,并基于评论家模型的目标函数对评论家模型进行迭代训练,以得到训练好的评论家模型;
21、根据t时刻的判别数据及所述真实状态价值,确定演员模型的目标函数,并基于演员模型的目标函数对演员模型进行迭代训练,以得到训练好的演员模型。
22、可选地,基于能量机动理论和态势评估方法,根据t时刻的奖励,确定t时刻的融合奖励,具体包括:
23、基于能量机动理论和态势评估方法,确定t时刻的势函数;
24、根据t时刻的势函数及t时刻的奖励,确定t时刻的融合奖励。
25、可选地,采用以下公式,确定t时刻的融合奖励:
26、;
27、其中,为t时刻的融合奖励,rt为t时刻的奖励,ft为t时刻的势函数。
28、为实现上述目的,本专利技术还提供了如下方案:
29、一种智能空战决策系统,包括:
30、数据获取单元,用于针对任一飞机,获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作;
31、决策单元,与所述数据获取单元连接,用于根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作,基于空战策略模型,确定当前时刻所述飞机的动作,以调整所述飞机的运行状态;所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的;所述空战策略模型包括状态预测模型及动作预测模型;所述状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的;所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作;所述动作预测模型为预先基于融合奖励,根据历史设定时段内本文档来自技高网...
【技术保护点】
1.一种智能空战决策方法,其特征在于,所述智能空战决策方法包括:
2.根据权利要求1所述的智能空战决策方法,其特征在于,所述飞机的观测数据包括位置及速度;所述飞机的动作为执行机构的操控量。
3.根据权利要求1所述的智能空战决策方法,其特征在于,所述空战策略模型的训练过程包括:
4.根据权利要求3所述的智能空战决策方法,其特征在于,所述演员评论家模型包括演员模型及评论家模型;
5.根据权利要求4所述的智能空战决策方法,其特征在于,根据t时刻的判别数据及t时刻的融合奖励,确定演员评论家模型的目标函数,并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练,具体包括:
6.根据权利要求3所述的智能空战决策方法,其特征在于,基于能量机动理论和态势评估方法,根据t时刻的奖励,确定t时刻的融合奖励,具体包括:
7.根据权利要求6所述的智能空战决策方法,其特征在于,采用以下公式,确定t时刻的融合奖励:
8.一种智能空战决策系统,应用于权利要求1至7任一项所述的智能空战决策方法,其特征在于,所述智能空战决策系
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至7中任一项所述的智能空战决策方法。
...【技术特征摘要】
1.一种智能空战决策方法,其特征在于,所述智能空战决策方法包括:
2.根据权利要求1所述的智能空战决策方法,其特征在于,所述飞机的观测数据包括位置及速度;所述飞机的动作为执行机构的操控量。
3.根据权利要求1所述的智能空战决策方法,其特征在于,所述空战策略模型的训练过程包括:
4.根据权利要求3所述的智能空战决策方法,其特征在于,所述演员评论家模型包括演员模型及评论家模型;
5.根据权利要求4所述的智能空战决策方法,其特征在于,根据t时刻的判别数据及t时刻的融合奖励,确定演员评论家模型的目标函数,并基于演员评论家模型的目标函数对演员评论家模型...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。