System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的智能目标分配方法及系统技术方案_技高网

一种基于深度强化学习的智能目标分配方法及系统技术方案

技术编号:43697233 阅读:38 留言:0更新日期:2024-12-18 21:12
本发明专利技术涉及人工智能与无人系统技术领域,公开了一种基于深度强化学习的智能目标分配方法及系统,利用多元渠道收集并分类保卫地状态、火力单元状态、敌方目标状态和历史分配方案,得到战场信息,将各类战场信息整合为键值对形式的字典,以字典观测空间形式作为态势输入;通过决策动作计算模型对输入信息进行目标分配,并生成决策指令;将决策指令转换为仿真环境可执行的动作,在高度仿真的对抗环境中,执行这些决策指令,模拟实际战斗过程,观察并记录行动效果,根据仿真结果评估决策指令,并生成评估反馈,根据评估反馈,调整决策动作计算模型参数,进行迭代优化;本发明专利技术显著增强了对抗体系的智能化水平与对抗效能。

【技术实现步骤摘要】

本专利技术涉及人工智能与无人系统,具体涉及一种基于深度强化学习的智能目标分配方法及系统


技术介绍

1、武器目标分配作为军事运筹学领域的基础问题之一,近年来随着现代战争的复杂性和信息化程度的不断提高,受到了广泛关注和深入研究。该问题旨在研究如何将有限的武器资源高效、合理地分配给多个敌方目标,以实现对抗效能的最大化。

2、传统的武器目标分配问题主要关注静态环境下的分配策略,即在一个确定的周期内,将武器分配给敌方目标。然而,随着现代战争节奏的加快和战场环境的动态变化,动态武器目标分配问题逐渐成为研究热点。动态武器目标分配不仅需要考虑敌方目标的不确定性,还需要考虑己方武器在数量、类型和状态等方面的动态变化。

3、由于战场态势高动态变化且对抗实体多,目标分配存在大量装备能力约束及物理约束,特别是时间和资源约束,导致智能体决策过程将面临高维状态及动作空间,对面向高维状态、动作空间的多智能体神经网络结构进行合理设计,是首要解决的科学问题;现有基于全连接层的dqn或a2c方法没有考虑历史态势,不具有跨时间关联事件的能力。


技术实现思路

1、本专利技术的目的是为了解决上述问题,设计了一种基于深度强化学习的智能目标分配方法及系统。

2、本专利技术第一方面提供一种基于深度强化学习的智能目标分配方法,所述基于深度强化学习的智能目标分配方法包括以下步骤:

3、利用多元渠道收集并分类保卫地状态、火力单元状态、敌方目标状态和历史分配方案,得到战场信息,将各类战场信息整合为键值对形式的字典,每个键代表一类信息,对应的值包含该类信息的具体指标,并以字典观测空间形式作为态势输入,其中所述多元渠道至少包括传感器网络和情报报告;

4、基于深度神经网络、采用a2c算法、集成gru和注意力机制构建得到决策动作计算模型,通过所述决策动作计算模型对输入信息进行目标分配,并生成决策指令;

5、将所述决策指令转换为仿真环境可执行的动作,在高度仿真的对抗环境中,执行这些决策指令,模拟实际战斗过程,观察并记录行动效果,根据仿真结果评估所述决策指令,并生成评估反馈,根据所述评估反馈,调整决策动作计算模型参数,进行迭代优化。

6、可选的,在本专利技术第一方面的第一种实现方式中,所述基于深度神经网络、采用a2c算法、集成gru和注意力机制构建得到决策动作计算模型,通过所述决策动作计算模型对输入信息进行目标分配,并生成决策指令,包括:

7、基于a2c算法构建actor-critic网络,采用actor网络学习策略,生成决策动作,采用critic网络评估状态并指导actor网络的行为;

8、使用gru层处理序列数据,并通过注意力机制增强gru层,由gru层捕捉序列数据的前向和后向信息,基于深度神经网络、采用a2c算法、集成gru和注意力机制构建得到决策动作计算模型;

9、获取输入信息,将所述输入信息输入决策动作计算模型,对所述输入信息中每类信息应用卷积循环单元进行初步特征提取,经过两层卷积循环单元处理后,将特征传递至全连接层进行抽象化处理;

10、将所述输入信息输入注意力机制对可拦截目标状态和火力单元状态进行重点学习,融合所有类型的特征,捕捉战场态势的全局信息,通过ac网络输出目标分配方案,并生成决策指令。

11、可选的,在本专利技术第一方面的第二种实现方式中,所述基于a2c算法构建actor-critic网络,采用actor网络学习策略,生成决策动作,采用critic网络评估状态并指导actor网络的行为,包括:

12、利用图卷积神经网络与多智能体知识,将多智能体环境构建为图,每个智能体表示图的节点,每个节点有k条边,连接到与之相连的邻居节点,卷积过程为:

13、

14、式中,hi表示智能体n经过卷积后生成的潜在的特征向量,σ表示激活函数,m表示为智能体n邻域内与之相连的智能体,αm表示获取智能体m特征向量的关系权重,wn是可训练的卷积层权重;

15、将目标智能体和邻接智能体的特征矩阵作为多头注意力机制输入的特征矩阵投影到q,k,v表示矩阵,通过点乘获得关系权重:

16、

17、式中,wq和wk表示可训练权重矩阵,hn、hm、hk表示目标智能体和邻接智能体的输入特征矩阵,dk表示输出特征矩阵的维数;

18、将在actor网络中通过卷积得到的潜在特征输入到gru层中以提取序列数据;

19、通过softmax函数对actor网络的输出进行限制,以指导actor网络的行为。

20、可选的,在本专利技术第一方面的第三种实现方式中,所述使用gru层处理序列数据,并通过注意力机制增强gru层,由gru层捕捉序列数据的前向和后向信息,基于深度神经网络、采用a2c算法、集成gru和注意力机制构建得到决策动作计算模型,包括:

21、通过一个全连接层将gru层的每个时间步输出转换为一个注意力得分,t时刻注意力得分为:

22、

23、式中,ht表示t时刻gru层的输出,q表示注意力机制动态查询向量,l为输入序列的总长度;

24、根据得到的注意力权重,对所有时间步的隐藏状态进行加权求和,生成一个加权的序列表示,捕获序列数据的前向和后向信息。

25、可选的,在本专利技术第一方面的第四种实现方式中,将所述决策指令转换为仿真环境可执行的动作,在高度仿真的对抗环境中,执行这些决策指令,模拟实际战斗过程,观察并记录行动效果,根据仿真结果评估所述决策指令,并生成评估反馈,根据所述评估反馈,调整决策动作计算模型参数,进行迭代优化,包括:

26、初始化仿真环境,设置初始状态,从预设的想定库中加载想定,设定初始任务场景,其中所述想定库为包含对抗场景的数据库;

27、获取仿真管理器,模拟一段时间内的战场态势发展,获取仿真管理器提供的观测信息,其中所述观测信息至少包括发射车状态、保卫地状态、目标状态、雷达状态等。

28、设计字典观测空间,将不同类型的观测信息独立处理,输入到对应的特征提取器中进行特征提取,得到关键特征,合并所有关键特征并进行特征层融合;

29、判断是否满足想定结束条件,若满足,则结束想定运行;否则继续运行至指定步数,其中所述结束条件为保卫地全部阵亡或敌方武器全部消耗;

30、根据仿真结果评估所述决策指令,并生成评估反馈,根据所述评估反馈,调整决策动作计算模型参数,进行迭代优化。

31、可选的,在本专利技术第一方面的第五种实现方式中,所述设计字典观测空间,将不同类型的观测信息独立处理,输入到对应的特征提取器中进行特征提取,得到关键特征,合并所有关键特征并进行特征层融合,包括:

32、根据战场态势的复杂性,将观测信息分为不同的类别,其中所述观测信息的类别至少包括敌我目标状态、环境因素、资源状况和时间敏感信息;

33、针对每种类别的观测本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的智能目标分配方法,其特征在于,所述基于深度强化学习的智能目标分配方法包括以下步骤:

2.如权利要求1所述的一种基于深度强化学习的智能目标分配方法,其特征在于,所述基于深度神经网络、采用A2C算法、集成GRU和注意力机制构建得到决策动作计算模型,通过所述决策动作计算模型对输入信息进行目标分配,并生成决策指令,包括:

3.如权利要求2所述的一种基于深度强化学习的智能目标分配方法,其特征在于,所述基于A2C算法构建Actor-Critic网络,采用Actor网络学习策略,生成决策动作,采用Critic网络评估状态并指导Actor网络的行为,包括:

4.如权利要求2所述的一种基于深度强化学习的智能目标分配方法,其特征在于,所述使用GRU层处理序列数据,并通过注意力机制增强GRU层,由GRU层捕捉序列数据的前向和后向信息,基于深度神经网络、采用A2C算法、集成GRU和注意力机制构建得到决策动作计算模型,包括:

5.如权利要求1所述的一种基于深度强化学习的智能目标分配方法,其特征在于,将所述决策指令转换为仿真环境可执行的动作,在高度仿真的对抗环境中,执行这些决策指令,模拟实际战斗过程,观察并记录行动效果,根据仿真结果评估所述决策指令,并生成评估反馈,根据所述评估反馈,调整决策动作计算模型参数,进行迭代优化,包括:

6.如权利要求5所述的一种基于深度强化学习的智能目标分配方法,其特征在于,所述设计字典观测空间,将不同类型的观测信息独立处理,输入到对应的特征提取器中进行特征提取,得到关键特征,合并所有关键特征并进行特征层融合,包括:

7.一种基于深度强化学习的智能目标分配系统,其特征在于,所述基于深度强化学习的智能目标分配系统包括态势输入模块、决策动作计算模块和决策动作输出模块,其中,

8.如权利要求7所述的一种基于深度强化学习的智能目标分配系统,其特征在于,所述决策动作计算模块包括生成子模块、构建子模块、输入子模块和输出子模块,其中,

9.如权利要求7所述的一种基于深度强化学习的智能目标分配系统,其特征在于,所述决策动作输出模块包括初始化子模块、获取子模块、特征提取子模块、判断子模块和调整子模块,其中,

...

【技术特征摘要】

1.一种基于深度强化学习的智能目标分配方法,其特征在于,所述基于深度强化学习的智能目标分配方法包括以下步骤:

2.如权利要求1所述的一种基于深度强化学习的智能目标分配方法,其特征在于,所述基于深度神经网络、采用a2c算法、集成gru和注意力机制构建得到决策动作计算模型,通过所述决策动作计算模型对输入信息进行目标分配,并生成决策指令,包括:

3.如权利要求2所述的一种基于深度强化学习的智能目标分配方法,其特征在于,所述基于a2c算法构建actor-critic网络,采用actor网络学习策略,生成决策动作,采用critic网络评估状态并指导actor网络的行为,包括:

4.如权利要求2所述的一种基于深度强化学习的智能目标分配方法,其特征在于,所述使用gru层处理序列数据,并通过注意力机制增强gru层,由gru层捕捉序列数据的前向和后向信息,基于深度神经网络、采用a2c算法、集成gru和注意力机制构建得到决策动作计算模型,包括:

5.如权利要求1所述的一种基于深度强化学习的智能目标分配方法,其特征在于,将所述决策指...

【专利技术属性】
技术研发人员:刘飞彭程远邵节
申请(专利权)人:北京航天长征飞行器研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1