一种基于深度图强化学习的多航天器智能决策方法与系统技术方案

技术编号:41626710 阅读:25 留言:0更新日期:2024-06-13 02:25
本发明专利技术涉及一种基于深度图强化学习的多航天器智能决策方法与系统,属于航天技术领域。所述方法以多航天器状态空间矩阵作为深度图神经网络输入,经过L<subgt;conv</subgt;个卷积层提取数据特征,再利用L<subgt;fc</subgt;个全连接层将数据特征转换为决策动作;最后搭建基于深度图神经网络的强化学习训练架构,采用基于GTD3算法强化学习方法对深度图神经网络训练输出所述决策动作,经过训练完成多航天器轨道行为智能决策,所述方法相比基于微分对策算法的多航天器协同决策方法,无需进行多航天器复杂支付函数的设计与求解,利用图神经网络的复杂多维状态空间特征提取能力和强化学习的无模型训练优势,实现高效提取多航天器状态特征,能够根据任务回报自发的求出最优解。

【技术实现步骤摘要】

本专利技术属于航天,具体涉及一种基于深度图强化学习的多航天器智能决策方法与系统


技术介绍

1、多航天器集群控制问题是未来航天发展面临的首要问题。航天器执行任务的形式也必将从现在的单一航天器向多航天器协同转变。多航天器协同作业的研究尚处于起步阶段,与单一航天器不同,多航天器控制需要考虑多星间相互协同作用,而星间信息沟通却存在不全面、不对称的特点,单一航天器很难获取所有航天器的信息,因而对多航天器的协同控制提出了挑战。


技术实现思路

1、本专利技术旨在解决上述问题,针对多航天器多目标协同抵近的轨道控制问题提出了一种基于深度图强化学习的多航天器智能决策方法,首先建立航天器轨道动力学模型,其次建立多航天器的多目标任务模型,接着根据多航天器任务模型构建深度图神经网络模型,最后搭建基于深度图神经网络的强化学习训练架构,经过训练形成多航天器轨道行为智能决策方法。

2、为了实现上述目的,本专利技术采用的技术方案是:一种基于深度图强化学习的多航天器智能决策方法,包括以下步骤:

3、以多航天器状态空间矩本文档来自技高网...

【技术保护点】

1.一种基于深度图强化学习的多航天器智能决策方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度图强化学习的多航天器智能决策方法,其特征在于,构建深度图神经网络模型包括以下步骤:

3.根据权利要求2所述的基于深度图强化学习的多航天器智能决策方法,其特征在于,建立航天器轨道动力学模型包括:

4.根据权利要求1所述的基于深度图强化学习的多航天器智能决策方法,其特征在于,多航天器多任务目标模型构建包括:

5.根据权利要求2所述的基于深度图强化学习的多航天器智能决策方法,其特征在于,多航天器多目标跟踪抵近任务的目标为每个目标至少被一个...

【技术特征摘要】

1.一种基于深度图强化学习的多航天器智能决策方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度图强化学习的多航天器智能决策方法,其特征在于,构建深度图神经网络模型包括以下步骤:

3.根据权利要求2所述的基于深度图强化学习的多航天器智能决策方法,其特征在于,建立航天器轨道动力学模型包括:

4.根据权利要求1所述的基于深度图强化学习的多航天器智能决策方法,其特征在于,多航天器多任务目标模型构建包括:

5.根据权利要求2所述的基于深度图强化学习的多航天器智能决策方法,其特征在于,多航天器多目标跟踪抵近任务的目标为每个目标至少被一个航天器到访,按照任务目标,针对航天器是否访问过某一目标这一指标构建终端回报一;对于每个目标而言,需要再tmax时间内均至少被到访一次,构建终端回报二;考虑航天器与其可感知的m个目标间的距离,设计过程回报;防止两两航天器之间发生碰撞,要求两两航天器之间距离大于危险距离设计距离回报;在每次任务结束后统计燃料消耗总量,设计燃料回报;最后根据终端回报一、回报二、过程回报、距离回报以及燃料回报...

【专利技术属性】
技术研发人员:王铮曹煦阳宁昕陈锋李文龙
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1