适用于强化学习的小天体着陆器动态目标规划训练方法技术

技术编号:36086972 阅读:68 留言:0更新日期:2022-12-24 11:02
本发明专利技术公开的适用于强化学习的小天体着陆器动态目标规划训练方法,属于航空航天技术领域。本发明专利技术通过小天体着陆器初始和目标状态对随机生成的方法,在BFS的状态空间规划器验证和筛选下,生成大量的有解的初始

【技术实现步骤摘要】
适用于强化学习的小天体着陆器动态目标规划训练方法


[0001]本专利技术涉及一种适用于强化学习的小天体着陆器动态目标规划训练方法,属于航空航天


技术介绍

[0002]深空探测任务中,由于深空探测器一般距离地球较远,飞行时间长,所处环境未知,导致探测器的操作与控制难度很高。除此以外,深空探测任务中,时间、资源、逻辑约束关系等多种复杂约束较多,任务的编排和求解困难。人类对于深空环境了解较少,在深空环境中,可能需要根据实际情况在某些状态下调整任务目标,进而满足额外或偶发的观测等要求。
[0003]现有的适用于小天体着陆器任务规划方法,如罗塞塔任务的科学规划(Master Science Plan)观测方法,主要注重策略方面以确保着陆器和任务执行的安全性,缺少了规划技术本身的研究;其它规划技术如Fast

Forward、Fast

Downward、基于持续动作的规划、基于约束可满足的规划方法等,对于突发事件或者任务目标改变等需求,需要借助完全重新推理或重新规划任务序列,速度较慢,因此对于突发情况本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.适用于强化学习的小天体着陆器动态目标规划训练方法,其特征在于:包括如下步骤,步骤一、根据小天体着陆器任务规划中小天体着陆器系统状态与动作间的约束和转移关系,确定待规划和训练的任务模型;步骤二、使用矩阵和向量形式表达小行星着陆任务规划使用的状态空间中不同系统的当前状态,表达着陆器各系统的真实状态向量η和其中的各状态组ζ
j
;在此基础上设置t个(t≥1)存在解序列的初始状态和目标状态;步骤三、构建基于广度优先搜索BFS的状态空间规划器,便于在后续步骤中利用所述状态空间规划器验证生成的初始

目标状态对间,或者任意状态空间中A状态和B状态间可行性,即是否存在规划解;步骤四、反用固定目标状态生成方法,根据步骤二中存在解序列的初始状态,生成适用于每个着陆器系统的随机目标状态,进而组合为目标状态矩阵;重复上述生成随机目标状态矩阵的过程,使用步骤三中BFS状态空间规划器,验证生成的初始

目标状态对间可行性,筛选可行的目标状态,进而生成多个可行的随机目标状态矩阵;步骤五、采用迭代式初始状态组状态生成方法,根据步骤四生成的目标状态矩阵K
M
,继续使用固定目标状态生成方法,随机生成多个在目标状态矩阵K
M
下每个目标状态均有解的初始状态,构成初始状态集K
MiN
;步骤六、针对每个步骤四中生成的目标状态执行步骤五,为每个步骤四中生成的目标状态生成相应的初始状态集,得到一个m*n初始状态集,也即共有m*n个初始

目标状态对;步骤七、以上述初始

目标状态对组作为强化学习训练环境的初始状态

目标状态,通过训练过程中从初始

目标状态对组中重新选取初始

目标状态对作为训练环境的新初始

目标状态,增强训练后小行星着陆器任务规划智能体对于动态任务目标的规划适应能力。2.如权利要求1所述的适用于强化学习的小天体着陆器动态目标规划训练方法,其特征在于:步骤一实现方法为,定义着陆器任务模型为一个五元组:<O,S,A,P,E>,其中O是系统的集合,即着陆器任务模型中的所有系统;S是状态的集合,表示着陆器任务模型中各系统的所有状态;A是动作的集合,表示着陆器任务模型中各系统的所有动作;P是动作前提条件的集合,表示着陆器任务模型中各系统的各动作的所有前提条件;E是动作的影响或效果的集合,表示着陆器任务模型中各系统的所有动作的影响。3.如权利要求2所述的适用于强化学习的小天体着陆器动态目标规划训练方法,其特征在于:步骤二实现方法为,确定小天体着陆器系统O的个数m,根据每个系统O
i
的状态数k
i
,确定状态矩阵的列维度尺寸,即每个系统状态数的最大值n,获得此小天体着陆器系统的真实状态向量η
i
,α
i
为状态存在性值,如果状态当前是存在的,则取1,反之则取0;进而根据对上述的每个状态分类整理和分类,将系统O
i
状态表达为多个状态组的组合,则每个系统O
i
又能够描述为k

i
个状态组ζ
j
的组合,其中j为状态组的长度;状态组定义为一组互斥状态,同一状态下仅有一个被选中的状态,...

【专利技术属性】
技术研发人员:高艾路思遥徐瑞李朝玉朱圣英
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1