System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于强化学习的时空约束下多飞行器协同制导方法技术_技高网

基于强化学习的时空约束下多飞行器协同制导方法技术

技术编号:40918146 阅读:2 留言:0更新日期:2024-04-18 14:44
本发明专利技术公开了一种基于强化学习的时空约束下多飞行器协同制导方法,包括:构建多飞行器相对目标的运动关系模型;基于强化学习训练得到满足视场角约束的期望攻击角度制导阶段的飞行时间,并据此计算虚拟命中点;基于多飞行器相对目标的运动关系模型制定第一阶段制导律和第二阶段制导律;将虚拟命中点作为制导切换点,并结合第一阶段制导律和第二阶段制导律生成制导指令,以控制飞行器的飞行,从而实现时空约束下多飞行器的协同制导。该方法避免了复杂环境与模型的影响以及使用计算公式对剩余飞行时间的估计,且不需要飞行器之间进行通信,减少了对飞行器的通讯带宽等弹载资源的需求,降低了飞行器成本。

【技术实现步骤摘要】

本专利技术属于飞行器制导,具体涉及一种基于强化学习的时空约束下多飞行器协同制导方法


技术介绍

1、在一些特殊的制导作战任务中,往往对飞行器打击目标的攻击时间有特定的要求,攻击时间控制制导为考虑攻击时间约束的制导作战任务提供了解决思路。攻击时间控制制导应用于多飞行器齐射攻击中,给每个飞行器设置相同的攻击时间指令,则可以使得多飞行器在同一时刻命中目标,从而获得所需的饱和攻击效果。

2、传统的协同控制制导方法需要预先知道精确的环境模型与飞行器运动学模型,但由于其本身复杂性以及噪声等外部环境因素的存在,这些模型通常难以获得,从而影响了制导效果。随着信息电子技术的飞速发展,多飞行器协同控制制导也向着视场角约束、落角约束以及攻击时间约束等多约束的高目标方向发展。

3、针对具有视场角约束、落角约束以及攻击时间约束等多约束条件下的制导问题,专利文献(cn115857538a)提出了一种三维空间下满足落角约束的多飞行器协同制导方法,该方法中首先针对各个飞行器提出一个三维落角约束制导律,并给出其显式的剩余飞行时间估计方法,然后以上述制导律作为基础制导律,将剩余飞行时间估计值作为协调变量,通过额外增加用于剩余飞行时间一致性调节的偏置指令,实现多飞行器以指定方向同时到达目标位置。

4、然而,上述方法由于需要使用计算公式对剩余飞行时间进行估计,且各飞行器之间需要进行信息交互,增加了对飞行器的通讯带宽等弹载资源的需求,提升了飞行器成本。


技术实现思路

1、为了解决现有技术中存在的上述问题,本专利技术提供了一种基于强化学习的时空约束下多飞行器协同制导方法、装置、电子设备及存储介质。本专利技术要解决的技术问题通过以下技术方案实现:

2、第一方面,本专利技术提出了一种基于强化学习的时空约束下多飞行器协同制导方法,包括:

3、构建多飞行器相对目标的运动关系模型;

4、基于强化学习训练得到满足视场角约束的期望攻击角度制导阶段的飞行时间,并根据所述满足视场角约束的期望攻击角度制导阶段的飞行时间计算虚拟命中点;

5、基于所述多飞行器相对目标的运动关系模型制定第一阶段制导律和第二阶段制导律;其中,第一阶段为满足视场角约束的期望攻击角度制导阶段,第二阶段为比例导引制导阶段;

6、将所述虚拟命中点作为制导切换点,并结合所述第一阶段制导律和所述第二阶段制导律生成制导指令,以控制飞行器的飞行,从而实现时空约束下多飞行器的协同制导。

7、第二方面,本专利技术提出了一种基于强化学习的时空约束下多飞行器协同制导装置,包括:

8、模型构建模块,用于构建多飞行器相对目标的运动关系模型;

9、计算模块,用于基于强化学习训练得到满足视场角约束的期望攻击角度制导阶段的飞行时间,并根据所述满足视场角约束的期望攻击角度制导阶段的飞行时间计算虚拟命中点;

10、制导模块,用于基于所述多飞行器相对目标的运动关系模型制定第一阶段制导律和第二阶段制导律;其中,第一阶段为满足视场角约束的期望攻击角度制导阶段,第二阶段为比例导引制导阶段;

11、指令生成模块,用于将所述虚拟命中点作为制导切换点,并结合所述第一阶段制导律和所述第二阶段制导律生成制导指令,以控制飞行器的飞行,从而实现时空约束下多飞行器的协同制导。

12、第三方面,本专利技术提出了一种电子设备,包括处理器、通信接口、存储器和通信总线;其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;

13、存储器用于存放计算机程序;

14、处理器用于执行存储器上所存放的程序,以实现本专利技术第一方面提供的方法步骤。

15、第四方面,本专利技术提出了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被执行时能够实现本专利技术第一方面提供的方法步骤。

16、本专利技术的有益效果:

17、1、本专利技术提供的基于强化学习的时空约束下多飞行器协同制导方法将制导分为两个阶段,并引入虚拟命中点作为制导切换点,基于强化学习算法采用近端策略优化训练智能体得出满足视场角约束的期望攻击角度制导阶段的飞行时间,进而得到满足期望攻击时间约束的虚拟命中点,最后结合计算的两个阶段制导律生成可实现同时打击的制导指令,使得飞行器集群能更好的满足时间协同需要。该方法一方面避免了复杂环境与模型的影响,提高了制导效果,另一方面还避免了使用计算公式对剩余飞行时间的估计,且不需要飞行器之间进行通信,减少了对飞行器的通讯带宽等弹载资源的需求,降低了飞行器成本。

18、2、本专利技术在利用强化学习算法计算虚拟命中点的具体位置时,将当前飞行器的相对位置和角度信息作为部分状态量,合理设置了状态空间,同时基于不同的终止状态设计了分段式奖励函数,使得智能体给出的满足视场角约束的期望攻击角度制导阶段的飞行时间更加精确,从而得到更精确的虚拟命中点位置信息,使得飞行器集群能更好的满足时间协同需要,进一步提升了协同制导精度。

19、以下将结合附图及实施例对本专利技术做进一步详细说明。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,包括:

2.根据权利要求1所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,所述多飞行器相对目标的运动关系模型的数学表达式为:

3.根据权利要求2所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,基于强化学习训练得到满足视场角约束的期望攻击角度制导阶段的飞行时间,包括:

4.根据权利要求3所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,所述分段式奖励函数表示为:

5.根据权利要求2所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,所述虚拟命中点的计算公式为:

6.根据权利要求2所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,基于所述多飞行器相对目标的运动关系模型制定第一阶段制导律,包括:

7.根据权利要求2所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,所述第二阶段的制导律表示为:

8.一种基于强化学习的时空约束下多飞行器协同制导装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线;其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被执行时能够实现权利要求1-7任一项所述的方法步骤。

...

【技术特征摘要】

1.一种基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,包括:

2.根据权利要求1所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,所述多飞行器相对目标的运动关系模型的数学表达式为:

3.根据权利要求2所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,基于强化学习训练得到满足视场角约束的期望攻击角度制导阶段的飞行时间,包括:

4.根据权利要求3所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,所述分段式奖励函数表示为:

5.根据权利要求2所述的基于强化学习的时空约束下多飞行器协同制导方法,其特征在于,所述虚拟命中点的计算公式为:

6.根据...

【专利技术属性】
技术研发人员:李枭扬张海若王腾杨振周颖周德云
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1