一种基于深度增强学习的空间非合作目标捕获方法技术

技术编号:20876657 阅读:38 留言:0更新日期:2019-04-17 11:42
本发明专利技术公开了一种基于深度增强学习的空间非合作目标捕获方法,分两步完成并实现交互。第一步,利用三维可视化软件搭建服务飞行器和目标飞行器的三维可视化环境,可视化环境的输入是服务飞行器的控制力和控制力矩,输出是服务飞行器和目标飞行器的状态。第二步,构建卷积神经网络模型,在三维可视化环境中对服务飞行器进行智能自主空间非合作目标捕获训练。卷积神经网络模型以服务飞行器和目标飞行器的状态为输入,利用其权重参数,输出控制服务飞行器所需的控制力和控制力矩并送入可视化环境中,两个飞行器的状态继续被输入神经网络以进行持续的深度增强训练。通过可视化环境和神经网络的不断交互,捕获反馈结果得以正确输出。

【技术实现步骤摘要】
一种基于深度增强学习的空间非合作目标捕获方法
本专利技术属于航空航天
,具体涉及一种基于深度增强学习的空间非合作目标捕获方法。
技术介绍
非合作目标是指不为对接或捕获设计的航天器,如己方未装置合作部件的卫星、空间碎片等以及对方航天器,其在信息层面上不沟通、机动行为上不配合,其捕获极具挑战性。许多空间军事任务如破坏敌方空间飞行器、对未成功进入预定轨道的卫星进行辅助入轨等都需要先完成非合作目标的在轨捕获。从目前的发展情况来看,对空间合作目标的捕获技术已相对成熟,并成功应用于在轨服务中,然而,对空间非合作目标捕获仍是一个世界性难题,还没有进行过在轨演示验证。空间非合作目标捕获的一般过程为服务飞行器接收人工指令,然后进入转移轨道,向目标机动。现有系统提出的引导与控制手段基本相似,主要是通过计算机视觉系统从多个角度对目标拍照,计算相对位姿信息,实现围绕目标绕飞消旋,以及进一步的捕获。但这些手段都存在一定局限性:要么目标模型已知;要么需地面进行图像处理,再上传数据至星上,存在一定的时延,可靠性受影响;要么只能针对某一类特定目标,都存在局限性。因此,目前对空间非合作目标的捕获,迫切地需要一种本文档来自技高网...

【技术保护点】
1.一种基于深度增强学习的空间非合作目标捕获方法,其特征在于,包括以下步骤:第一步,搭建三维可视化环境:利用可视化软件搭建服务飞行器和目标飞行器的三维可视化环境,三维可视化环境的输入是服务飞行器的控制力和控制力矩,输出是服务飞行器和目标飞行器的状态,状态包括位置、线速度和姿态角速度;第二步,构建卷积神经网络模型:卷积神经网络模型以服务飞行器和目标飞行器的状态作为输入,以控制服务飞行器所需的控制力和控制力矩为输出;以完成轨道近距离跟踪,绕飞消旋和姿态控制为任务,离散化卷积神经网络模型输出的控制力和控制力矩,构建分段加权奖励函数;第三步,卷积神经网络模型训练:利用DQN算法在三维可视化环境中对服务...

【技术特征摘要】
1.一种基于深度增强学习的空间非合作目标捕获方法,其特征在于,包括以下步骤:第一步,搭建三维可视化环境:利用可视化软件搭建服务飞行器和目标飞行器的三维可视化环境,三维可视化环境的输入是服务飞行器的控制力和控制力矩,输出是服务飞行器和目标飞行器的状态,状态包括位置、线速度和姿态角速度;第二步,构建卷积神经网络模型:卷积神经网络模型以服务飞行器和目标飞行器的状态作为输入,以控制服务飞行器所需的控制力和控制力矩为输出;以完成轨道近距离跟踪,绕飞消旋和姿态控制为任务,离散化卷积神经网络模型输出的控制力和控制力矩,构建分段加权奖励函数;第三步,卷积神经网络模型训练:利用DQN算法在三维可视化环境中对服务飞行器进行空间非合作目标捕获训练,利用卷积神经网络模型输出控制力和控制力矩并将其送入可视化环境中,环境输出的两个飞行器状态又继续被输入到神经网络模型中,通过三维可视化环境和卷积神经网络模型的不断交互,通过神经网络持续的自我学习,不断更新卷积神经网络模型的权重参数,直至获得正确的捕获反馈结果;第四步,完成非合作目标捕获任务:利用训练好的卷积神经网络模型对服务飞行器实施控制,从而对目标飞行器实现轨道近距离跟踪,绕飞消旋和组合体的姿态控制。2.根据权利要求1所述的一种基于深度增强学习的空间非合作目标捕获方法,其特征在于,在DQN训练算法中,建立一个卷积神经网络模型作为智能体,以服务飞行器和目标飞行器的状态作为输入,输出服务飞行器的控制力和控制力矩,卷积神经网络模型的输入层有36个节点,对应于环境传回的连续两帧三维图像中服务飞行器和目标飞行器各自的位置、线速度和姿态角速度的36维表示;输出层共有13个节点,对应于服务飞行器的控制力和控制力矩被离散化后的13类取值方式;在每个时间步骤,决策被发送回空间三维可视化环境,并从空间三维可视化环境中继续输出目标飞行器和服务飞行器的状态供给卷积神经网络模型以进行连续的深度增强训练,最终达到不断更新卷积神经网络模型的模型参数,正确输出捕获反馈结果的目的。3.根据权利要求1所述的一种基于深度增强学习的空间非合作目标捕获方法,其特征在于,第一步中,搭建三维可视化环境包括以下步骤:Step1:初始化服务飞行器和目标飞行器的位置线速度姿态角速度ω0及姿态四元数Q0;Step2:卷积神经网络模型给出施加于服务飞行器上的控制力F和控制力矩T,F=[Fx,Fy,Fz]T,T=[Tx,Ty,Tz]T而目标飞行器由于仅在重力作用下绕地球自由移动,F和T为零;Step3:依次对式(1)~(3)积分,求解两类飞行器的位置ri、线速度vi、姿态角速度ωi及姿态四元数Qi,...

【专利技术属性】
技术研发人员:王月娇马钟杨一岱王竹平
申请(专利权)人:西安微电子技术研究所
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1