考虑地面物理特性的星球车自主导航方法技术

技术编号:37544789 阅读:15 留言:0更新日期:2023-05-12 16:16
本发明专利技术提供了一种考虑地面物理特性的星球车自主导航方法,包括:基于深度强化学习,构建关于星球车的自主导航模型;获取所述星球车的运行状态数据;将所述运行状态数据输入所述自主导航模型,输出得到所述星球车的导航运动决策;根据所述导航运动决策,控制所述星球车运动。本发明专利技术通过构建基于深度强化学习理论的自主导航模型,实现并提升了星球车的自主导航能力,便于星球车在脱离人工决策的情况下自主进行星球探测,提升了星球车的适应能力与运动能力,提升了星球车的自主程度、智能程度以及对星球的探测效率,且实现了从环境感知直接到运动决策的端到端映射,提升了星球车进行星球探测任务的执行效率。探测任务的执行效率。探测任务的执行效率。

【技术实现步骤摘要】
考虑地面物理特性的星球车自主导航方法


[0001]本专利技术涉及自主导航
,具体而言,涉及一种考虑地面物理特性的星球车自主导航方法。

技术介绍

[0002]例如好奇号、毅力号和祝融号等星球车是开展星球表面科学探测任务最直接、最高效的工具。相对于轨道探测器,星球车能够对星球表面进行大面积、近距离和深入式的原位探测,对于研究星球地表形貌、内部构造、地质特性等具有重要的科学意义。
[0003]目前,星球车的星球作业任务或多或少需要依赖人工决策。但是,由于其他星球与地球之间的距离等原因,导致例如火星的星球与地球之间的平均通信时延较长且通信带宽较低,极大限制了星球上进行探测任务的星球车向地球传输的数据量,使得地面指挥中心无法全程实时掌握星球车的运行状态;且传统的基于地面遥操作的方式极大限制了星球车的移动速度和范围。
[0004]也就是说,依赖人工决策的星球车缺乏一定的自主导航能力,制约了星球车星球探测效率的进一步提高,影响了星球探测计划的顺利开展。而且,在星球作业任务面向地形复杂但是科学价值丰富的未知区域进发时,其对于星球车的移动安全性也将提出更高的要求,需要自主导航能力更高的星球车。

技术实现思路

[0005]本专利技术解决的问题是:如何提升星球车的自主导航能力。
[0006]为解决上述问题,本专利技术提供一种考虑地面物理特性的星球车自主导航方法,包括:
[0007]基于深度强化学习,构建关于星球车的自主导航模型;
[0008]获取所述星球车的运行状态数据;/>[0009]将所述运行状态数据输入所述自主导航模型,输出得到所述星球车的导航运动决策;
[0010]根据所述导航运动决策,控制所述星球车运动。
[0011]可选地,所述运行状态数据包括所述星球车的运行参数数据与星球车所在处的环境数据。
[0012]可选地,所述基于深度强化学习,构建关于星球车的自主导航模型包括:
[0013]构建关于所述星球车的待训练自主导航模型;
[0014]基于深度强化学习,采用仿真平台对所述待训练自主导航模型进行训练,得到所述自主导航模型。
[0015]可选地,所述构建关于所述星球车的待训练自主导航模型包括:
[0016]构建关于所述星球车的基于马尔可夫决策过程的所述待训练自主导航模型;其中,所述待训练自主导航模型包括五元组:<S,A,P,R,γ>;
[0017]其中,S表示所述星球车的状态空间,A表示所述星球车的动作空间,P和R分别表示状态转移概率和奖励函数,并分别代表所述星球车采取动作a∈A使状态从状态s∈S转移到下一步状态s

∈S的概率和奖赏;γ∈[0,1]为折扣因子。
[0018]可选地,所述构建关于所述星球车的基于马尔可夫决策过程的所述待训练自主导航模型之后,所述构建关于所述星球车的待训练自主导航模型还包括:
[0019]设计所述星球车的所述动作空间、所述状态空间以及所述奖励函数;
[0020]其中,所述奖励函数包括:目标点到达奖励函数、目标点接近奖励函数、车轮沉陷惩罚函数、车轮打滑惩罚函数、车体倾覆惩罚函数和车体碰撞惩罚函数。
[0021]可选地,所述设计所述星球车的所述动作空间A、所述状态空间S以及所述奖励函数R之后,所述构建关于所述星球车的待训练自主导航模型还包括:
[0022]设计所述星球车的视—触融合自主导航网络框架;
[0023]所述基于深度强化学习,采用仿真平台对所述待训练自主导航模型进行训练,得到所述自主导航模型包括:
[0024]基于所述视—触融合自主导航网络框架,采用所述仿真平台对所述待训练自主导航模型进行训练,得到所述自主导航模型。
[0025]可选地,所述环境数据包括星球车所在处环境的深度图像和/或彩色图像。
[0026]可选地,所述视—触融合自主导航网络框架包括深度学习特征提取部分和强化学习运动决策部分;其中,深度学习特征提取部分包括深度图像特征提取器、彩色特征提取器和运动特征提取器。
[0027]可选地,所述基于所述视—触融合自主导航网络框架,采用所述仿真平台对所述待训练自主导航模型进行训练,得到所述自主导航模型包括:
[0028]基于所述视—触融合自主导航网络框架和所述仿真平台,设计所述星球车自主导航的训练流程;
[0029]设计所述星球车自主导航的评价指标;
[0030]根据所述训练流程训练所述待训练自主导航模型,根据评价指标对所述训练流程及训练结果进行评价,根据所述评价结果确定所述自主导航模型。
[0031]可选地,所述训练流程包括个人主机端仿真交互数据采集流程和服务器端自主导航模型训练流程,所述根据所述训练流程训练所述待训练自主导航模型包括:
[0032]通过个人主机端为星球车提供用于进行自主导航训练的仿真环境以及采集并存储星球车与所述仿真环境的仿真交互数据;
[0033]通过服务器端接收来自个人主机端的仿真交互数据,并结合仿真交互数据对所述待训练自主导航模型进行训练以优化所述待训练自主导航模型的参数。
[0034]本专利技术与现有技术相比,具有以下有益效果:通过构建关于星球车的基于深度强化学习理论的自主导航模型,将星球车的运行状态数据作为自主导航模型的输入,从而输出得到星球车下一步的导航运动决策,以用于指导(控制)星球车下一步的运动。如此,一方面,本方法实现并提升了星球车的自主导航能力,便于星球车在脱离人工决策的情况下自主进行星球探测,提升了星球车的适应能力与运动能力,提升了星球车的自主程度、智能程度以及对星球的探测效率;另一方面,本方法绕过了传统导航方法(例如采用分治法思想的导航方法,将相应问题分解为规模更小的子问题进行逐个求解)中存在的计算量大、耗时长
的步骤,实现了从环境感知直接到运动决策的端到端映射,提升了星球车进行星球探测任务的执行效率。
附图说明
[0035]图1为本专利技术实施例中考虑地面物理特性的星球车自主导航方法的流程图;
[0036]图2为本专利技术实施例中步骤100的子流程图;
[0037]图3为本专利技术另一实施例中考虑地面物理特性的星球车自主导航方法的流程图;
[0038]图4为本专利技术实施例中步骤121的子流程图;
[0039]图5为本专利技术实施例中深度图像特征提取器的结构示意图;
[0040]图6为本专利技术实施例中彩色图像特征提取器的结构示意图;
[0041]图7为本专利技术实施例中视—触融合自主导航网络框架的结构示意图。
具体实施方式
[0042]为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。
[0043]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种考虑地面物理特性的星球车自主导航方法,其特征在于,包括:基于深度强化学习,构建关于星球车的自主导航模型;获取所述星球车的运行状态数据;将所述运行状态数据输入所述自主导航模型,输出得到所述星球车的导航运动决策;根据所述导航运动决策,控制所述星球车运动。2.如权利要求1所述的考虑地面物理特性的星球车自主导航方法,其特征在于,所述运行状态数据包括所述星球车的运行参数数据与星球车所在处的环境数据。3.如权利要求2所述的考虑地面物理特性的星球车自主导航方法,其特征在于,所述基于深度强化学习,构建关于星球车的自主导航模型包括:构建关于所述星球车的待训练自主导航模型;基于深度强化学习,采用仿真平台对所述待训练自主导航模型进行训练,得到所述自主导航模型。4.如权利要求3所述的考虑地面物理特性的星球车自主导航方法,其特征在于,所述构建关于所述星球车的待训练自主导航模型包括:构建关于所述星球车的基于马尔可夫决策过程的所述待训练自主导航模型;其中,所述待训练自主导航模型包括五元组:<S,A,P,R,γ>;其中,S表示所述星球车的状态空间,A表示所述星球车的动作空间,P和R分别表示状态转移概率和奖励函数,并分别代表所述星球车采取动作a∈A使状态从状态s∈S转移到下一步状态s

∈S的概率和奖赏;γ∈[0,1]为折扣因子。5.如权利要求4所述的考虑地面物理特性的星球车自主导航方法,其特征在于,所述构建关于所述星球车的基于马尔可夫决策过程的所述待训练自主导航模型之后,所述构建关于所述星球车的待训练自主导航模型还包括:设计所述星球车的所述动作空间、所述状态空间以及所述奖励函数;其中,所述奖励函数包括:目标点到达奖励函数、目标点接近奖励函数、车轮沉陷惩罚函数、车轮打滑惩罚函数、车体倾覆惩罚函数和车体碰撞惩罚函数。6.如权利要求5所述的考虑地面物理特性的星球车自主导航方法,其特征在于,所述设计所述星球车...

【专利技术属性】
技术研发人员:杨怀广丁亮丰文浩周如意高海波邓宗全何锡明张辉王镓于天一
申请(专利权)人:北京航天飞行控制中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1