System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请主要涉及无人机集群对抗领域,更具体地说是涉及一种基于强化学习的无人机集群对抗策略获取方法及相关设备。
技术介绍
1、在无人机集群对抗任务中,通常需要地面对抗人员依据对抗环境下各无人机的对抗情况,手动调整无人机的对抗策略,以向各无人机发送控制指令,控制无人机进行飞行,完成对抗任务。但这在多变对抗环境下的对抗表现并不好,且需要大量人工参与,不仅增大了人工成本,也降低了对抗策略调试效率。
技术实现思路
1、为了解决上述技术问题,本申请提供了以下技术方案:
2、本申请提出了一种基于强化学习的无人机集群对抗决策获取方法,包括:
3、获取无人机集群中各无人机的属性参数以及飞行日志数据;所述飞行日志数据是所述无人机集群在多种环境参数下产生的;
4、基于所述属性参数和所述飞行日志数据,通过仿真引擎构建针对无人机集群对抗任务的虚拟对抗环境,以及呈现于所述虚拟对抗环境的各无人机智能体模型;所述无人机智能体模型基于强化学习算法构建;
5、在不同的所述虚拟对抗环境下,基于针对各所述无人机智能体模型的样本数据,对各对抗方的初始对抗策略进行强化学习,获得相应所述对抗方的目标对抗策略;
6、基于所述目标对抗策略,在不同测试环境进行对抗测试,获得对抗测试结果;其中,所述不同测试环境包括真实测试环境以及通过所述仿真引擎构建的虚拟测试环境。
7、可选的,所述在不同的所述虚拟对抗环境下,基于针对各所述无人机智能体模型的样本数据,对各对抗方的初
8、获取针对各所述无人机智能体模型的样本数据中的初始状态信息;
9、将所述初始状态信息输入对应对抗方的无人机智能体模型,获得相应的所述无人机智能体模型在所述虚拟对抗环境下执行不同对抗动作的概率分布;
10、基于所述概率分布,控制相应的所述无人机智能体模型在所述虚拟对抗环境下执行对抗动作,获得所述无人机智能体模型执行所述对抗动作后的累积奖励值和下一状态信息;
11、至少基于所述累积奖励值,调整所述无人机智能体模型中的对抗策略;
12、将所述下一状态信息输入具有调整后的对抗策略的所述无人机智能体模型继续进行训练,直至满足训练终止条件,得到相应对抗方的目标对抗策略;
13、其中,所述目标对抗策略能够表征相应对抗方的所述无人机智能体模型在不同所述虚拟对抗环境下的不同状态信息与不同目标执行动作之间的映射关系,所述目标执行动作是指具有映射的所述状态信息的所述无人机智能体模型在所述虚拟对抗环境获得最大奖励值的执行动作。
14、可选的,所述至少基于所述累积奖励值,调整所述无人机智能体模型中的对抗策略,包括:
15、获取所述无人机智能体模型在所述虚拟对抗环境下的执行所述对抗动作后的累积奖励值;
16、确定所述无人机智能体模型的训练次数达到预设次数,获得对抗双方的所述无人机智能体模型在所述训练次数中各自的获胜率;
17、确定对抗双方各自的所述获胜率之间的差值大于获胜阈值,中断训练所述获胜率较高的一对抗方的所述无人机智能体模型,基于另一对抗方的所述累积奖励值,通过近端策略优化方式,调整相应所述无人机智能体模型中的对抗策略;
18、确定对抗双方各自新的所述获胜率之间的差值小于或等于所述获胜阈值,结束所述中断,基于对抗双方各自的所述累积奖励值,通过近端策略优化方式,调整相应所述无人机智能体模型中的对抗策略。
19、可选的,所述状态信息包括相应所述无人机智能体模型在当前状态下的位置信息、飞行速度信息、飞行姿态信息、剩余虚拟攻击资源和剩余虚拟能量;
20、所述累积奖励值基于同一对抗方的所述无人机智能体模型的所述剩余虚拟能量的变化量、战胜另一对抗方的所述无人机智能体模型的数量,以及所述无人机智能体模型执行对抗动作是否达到期望位置而确定。
21、可选的,所述针对各所述无人机智能体模型的样本数据的获得方法包括以下至少一种:
22、在所述虚拟对抗环境下,按照对抗双方各自的初始对抗策略,控制相应的所述无人机智能体模型执行对抗动作,获得相应的样本数据;
23、按照对抗双方各自的初始对抗策略,控制相应无人机在真实对抗环境下执行对抗动作,获得相应的样本数据;
24、其中,所述样本数据包括同一时间步长下,所述无人机智能体模型或对应无人机执行对抗动作前所处的状态信息、所执行的对抗动作信息,以及在相应对抗环境下得到的奖励信息;所述对抗动作信息包括相应无人机智能体模型或无人机的飞行控制输入指令,所述飞行控制输入指令至少包括横滚角控制指令、仰俯角控制指令以及飞行速度控制指令之中的一个或多个组合。
25、可选的,所述基于所述目标对抗策略,在不同测试环境进行对抗测试,获得对抗测试结果,包括:
26、将所述目标对抗策略迁移学习至真实测试环境下第一数量无人机的无人机模型;所述无人机模型基于所述飞行日志数据构建;
27、在所述真实测试环境下,基于所述无人机模型迁移学习到的所述目标对抗策略进行对抗测试,得到相应的第一对抗测试数据;
28、在所述虚拟测试环境下,基于所述目标对抗策略,对第二数量无人机的无人机智能体模型进行对抗测试,得到相应的第二对抗测试数据;所述第一数量无人机和所述第二数量无人机构成所述无人机集群;
29、将所述第一对抗测试数据导入所述虚拟测试环境;
30、基于所述虚拟测试环境下得到的所述第二对抗测试数据和所述第一对抗测试数据,获得针对所述目标对抗策略的对抗测试结果。
31、本申请还提出了一种基于强化学习的无人机集群对抗决策获取装置,所述装置包括:
32、第一获取模块,用于获取无人机集群中各无人机的属性参数以及飞行日志数据;所述飞行日志数据是所述无人机集群在多种环境参数下产生的;
33、第一构建模块,用于基于所述属性参数和所述飞行日志数据,通过仿真引擎构建针对无人机集群对抗任务的虚拟对抗环境,以及呈现于所述虚拟对抗环境的各无人机智能体模型;所述无人机智能体模型基于强化学习算法构建;
34、强化学习模块,用于在不同的所述虚拟对抗环境下,基于针对各所述无人机智能体模型的样本数据,对各对抗方的初始对抗策略进行强化学习,获得相应所述对抗方的目标对抗策略;
35、对抗测试模块,用于基于所述目标对抗策略,在不同测试环境进行对抗测试,获得对抗测试结果;其中,所述不同测试环境包括真实测试环境以及通过所述仿真引擎构建的虚拟测试环境。
36、本申请还提出了一种电子设备,所述电子设备包括:
37、显示器;
38、通信连接端口,用于连接检测设备,接收所述检测设备发送的无人机集群的飞行日志数据;所述飞行日志数据是所述无人机集群在多种环境参数下产生的;
39、处理器,用于本文档来自技高网...
【技术保护点】
1.一种基于强化学习的无人机集群对抗决策获取方法,其特征在于,所述基于强化学习的无人机集群对抗决策获取方法包括:
2.根据权利要求1所述的基于强化学习的无人机集群对抗决策获取方法,其特征在于,所述在不同的所述虚拟对抗环境下,基于针对各所述无人机智能体模型的样本数据,对各对抗方的初始对抗策略进行强化学习,获得相应所述对抗方的目标对抗策略,包括:
3.根据权利要求2所述的基于强化学习的无人机集群对抗决策获取方法,其特征在于,所述至少基于所述累积奖励值,调整所述无人机智能体模型中的对抗策略,包括:
4.根据权利要求2所述的基于强化学习的无人机集群对抗决策获取方法,其特征在于,所述状态信息包括相应所述无人机智能体模型在当前状态下的位置信息、飞行速度信息、飞行姿态信息、剩余虚拟攻击资源和剩余虚拟能量;
5.根据权利要求1所述的基于强化学习的无人机集群对抗决策获取方法,其特征在于,所述针对各所述无人机智能体模型的样本数据的获得方法包括以下至少一种:
6.根据权利要求1-5任一项所述的基于强化学习的无人机集群对抗决策获取方法,其特征在
7.一种基于强化学习的无人机集群对抗决策获取装置,其特征在于,所述基于强化学习的无人机集群对抗决策获取装置包括:
8.一种电子设备,其特征在于,所述电子设备包括:
9.根据权利要求8所述的电子设备,其特征在于,所述显示器用于:
10.一种基于强化学习的无人机集群对抗决策获取系统,其特征在于,所述基于强化学习的无人机集群对抗决策获取系统包括:
...【技术特征摘要】
1.一种基于强化学习的无人机集群对抗决策获取方法,其特征在于,所述基于强化学习的无人机集群对抗决策获取方法包括:
2.根据权利要求1所述的基于强化学习的无人机集群对抗决策获取方法,其特征在于,所述在不同的所述虚拟对抗环境下,基于针对各所述无人机智能体模型的样本数据,对各对抗方的初始对抗策略进行强化学习,获得相应所述对抗方的目标对抗策略,包括:
3.根据权利要求2所述的基于强化学习的无人机集群对抗决策获取方法,其特征在于,所述至少基于所述累积奖励值,调整所述无人机智能体模型中的对抗策略,包括:
4.根据权利要求2所述的基于强化学习的无人机集群对抗决策获取方法,其特征在于,所述状态信息包括相应所述无人机智能体模型在当前状态下的位置信息、飞行速度信息、飞行姿态信息、剩余虚拟攻击资源和剩余虚拟能量...
【专利技术属性】
技术研发人员:黄安付,高超,龙海涛,郭伟,曹一丁,
申请(专利权)人:白杨时代北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。