一种基于强化学习的行星表面地貌主动感知方法技术

技术编号:22076843 阅读:35 留言:0更新日期:2019-09-12 14:31
本发明专利技术公开了一种基于强化学习的行星表面地貌主动感知方法,步骤如下:首先以现代集合理论为基础,利用图像的局部特征描述算子与图像全局显著性方法来实时描述行星地貌,生成主动感知的知识库;在此基础上,结合增强学习框架设计基于有限特征描述算子集的奖励函数,构造目标地貌主动感知的学习框架。考虑星载计算机计算能力受限,在此框架内将学习步长定义为有限步长,最后结合行星地貌描述算子知识库完成训练学习,形成整体的地貌主动感知方法。本发明专利技术能够实现行星地貌的自主感知,巡视器能够自主识别兴趣地貌,并能够主动有效提高星表任务的科学勘探效率。

An Active Sensing Method of Planetary Surface Geomorphology Based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的行星表面地貌主动感知方法
本专利技术属于任务规划与模式识别
,具体指代一种基于强化学习的行星表面地貌主动感知方法。
技术介绍
处于可靠性的因素考虑,火星巡视器的星载计算机运算及存储能力有限(好奇号的CPU主频仅为200MHz),导致在火星工作日(sol)中,巡视器仅能存储并上传所观测的一小部分科学素材至地面工作站。随着航天技术的快速发展,在远地天体表面执行漫游巡视任务的巡视器尺寸也逐代增长,美国的第四代火星巡视器“好奇号”(Curiosity)长约3米,高达900kg,是前代火星巡视器的2~5倍。体积的增长使好奇号可以搭载更多的科学勘探载荷,它在实际任务中共搭载了17种敏感器,出于可靠性与安全性考虑,巡视器在遇到复杂路况时,需要将现场收集素材回传至地面进行地貌识别与环境理解,并等待地面返回的后续指示来执行后续勘探任务。由于天体与地面之间通讯延迟较长,造成巡视器任务的灵活性与获取科学目标的能力受到很大程度的制约。近年来,航天工作人员一直在探讨探测效率高的自主勘探方案。美国国家航空航天局(NASA)的科学家就提出在巡视器上装备一些主动感知设备,如通过灵巧触碰手触碰壁面来获取岩石硬度,并自主地进行操作分析来提高勘探效率;除此之外,一些科学家也提出利用人工智能方法进行地貌自主分析,如自主提取科学兴趣区域、检测障碍等。相比依赖人工遥控的地貌分析手段,地貌自主感知方法具有很多优势,首先其赋予了星表探索任务更高的自主性。使火星巡视器能够在有限的工作时间内探索更多的科学目标,而不必等待地面工作人员的命令指示,大幅提升了巡视器探索任务的效率,能够获得价值更高的科学回报。通过在线的地貌自主感知,巡视器能够筛选科学价值更高的科学素材(如岩石、云层、沙尘暴等动态环境)供地面工作人员研究。但出于可靠性的因素考虑,行星巡视器的星载计算机运算及存储能力有限,此外行星表面地貌颜色通常较为单一,纹理也较为贫瘠,因此一些在地面应用中已取得显著成果的识别方法可能并不适用行星地貌勘探的特殊环境。目前也尚没有针对行星地貌自主感知的系统方案。
技术实现思路
针对于上述现有技术的不足,本专利技术的目的在于提供一种基于强化学习的行星表面地貌主动感知方法,以解决现有技术中尚无针对行星地貌主动感知的系统方案的问题。为达到上述目的,本专利技术采用的技术方案如下:本专利技术的一种基于强化学习的行星表面地貌主动感知方法,包括步骤如下:步骤1):从一系列行星地貌图像集中提取图像SURF局部特征描述子,按照地貌类别逐一编目地貌所对应的特征描述子集合,即将归属同一类地貌的SURF特征描述子以集合的形式编目;步骤2):对SURF特征描述子集合的特征重复度进行检查,剔除相似度高的特征对及特征尺度过小的特征,将剩余的SURF特征描述子保留,并组建特征知识库;步骤3):将地貌感知以观测特征占比特征知识库比例的形式描述,并给出联合分布后验概率,根据该后验概率在增强学习框架中建立相应的奖励函数;步骤4):设定行星地貌主动感知的触发条件,在巡视器漫游巡视过程中,实时分析星载相机的图像局部显著性;当局部图像显著性满足触发条件时,执行SURF局部特征描述子提取,将所提取的SURF局部特征描述子作为观测量传递至强化学习训练体系,在该强化学习体系中控制量为相机云台调整角度θc以及相机的焦距fc;步骤5):将强化学习中策略迭代步骤更改为有限步长模式,并结合步骤3)中所建立的增强学习奖励函数、步骤1)中所建立的特征知识库,训练星载相机识别动作序列,完成地貌主动识别工作;步骤6):将地貌感知结果保存,巡视器继续漫游巡视任务。优选地,所述步骤2)中特征重复度检查及组建特征知识库具体如下:21)采用SURF特征描述子在目标巡视区域卫星图像中进行局部特征提取;22)将所提取出的64维SURF特征描述子进行重复度筛选,剔除相似度高的特征对,其中相似度判定通过特征描述向量归一化后彼此点乘实现,此处将描述子点乘后乘积大于0.9的特征对剔除;23)将特征尺度小于3个像素的特征描述子剔除;24)保留两轮筛选后的特征描述子集合,组建地貌知识库。优选地,所述步骤3)中执行SURF局部特征描述子提取范围为显著性检测区域内的局部图像区域。优选地,所述步骤3)中奖励函数的设计如下:31)建立特征观测量与地貌特征集的相关性,采用贝叶斯条件后验概率模型描述:其中,为特征知识库中对应第k个地貌的特征描述子集合,为当前观测量与的交集,为第k个地貌与观测量相关性的先验概率,描述为:其中,其中,为不同类地貌被观测的概率,将其统一初始化为1/K,K为特征知识库中地貌的总个数;32)在得到相关性后验概率后,将离散香浓信息熵进行归一化来描述该后验概率分布的完备性:其中,Nm(k)是特征知识库中与从观测量提取的SURF特征描述子集合有交集的地貌个数;为k时刻观测特征集与地貌i的特征集的交集;用来描述当前观测特征集与地貌特征知识库中某一地貌的似然程度;33)在步骤32)所建立的后验概率分布描述基础上,建立奖励函数:其中,Rk(·)为奖励函数;xk为相机k时刻下的状态参数;ak=[θc(k),fc(k)]T为相机参数控制量;为执行相机参数调整后,后验概率分布的熵增量,可以认为是对某类地貌识别的后验概率不确定性降低程度的度量;CR>>ΔI为奖励常数,设置此常数项的目的是当状态量xk或xk+1达到极值时(最大/最小焦距或云台转动角度),赋予一个奖励函数以便终止控制量,Cstop为一小于ΔI的常数,当控制停止所获得奖励大于执行任何控制时,赋予此常数并终止控制步长。优选地,所述步骤4)中设定行星地貌主动感知的触发条件具体为:41)使用谱残差方法对单幅行星图像进行显著性分析;42)记录检测到的显著性轮廓像素面积,其中s1~sN为1~N个显著区域的像素面积,为面积的集合;43)从中挑选最大像素轮廓面积Sma1x与第二大像素轮廓面积Smax2,当Smax1/Smax2>1.5时,则认为当前帧中涵盖具有观测价值的地貌,触发地貌主动感知。优选地,所述步骤5)中将强化学习方法中的策略迭代步骤做出如下针对性修改:51)定义相机参数控制策略与相应的奖励函数:其中,分别为相机焦距放缩的动作空间以及相机云台转动角度的动作空间;fc+表示放大焦距1.2倍,fc-表示缩小焦距0.9倍(符号叠加为倍数乘);θc+表示向右转动相机平台5度,θc-表示平台向左转动5度;52)将策略迭代中的评估函数定义为:其中R(·)对应步骤33)中的奖励函数Rk(·),x为相机状态量,vπ(x)为评估函数;为执行相机控制策略π后所获得的期望收益;H为控制空间总长度,h为分步长度;γ∈(0,1)为时间惩罚项,旨在弱化未来奖励项;p(xi|xi-1,a)为状态转移概率函数,p(xi|xi-1,a)=0.99,即认为有1%的相机参数调整失败率;53)在强化学习框架中,需要反复进行策略估计-策略更新迭代直至收敛。优选地,在策略更新步骤中考虑星载计算机的处理能力,设定有限步长迭代策略,即在迭代过程中引入如下终止判据:最大迭代步数为20步,当20步内未能完成有效收敛则终止强化学习任务;在迭代期间实时审查图像显著性,若满足如下条件则终止强化学习任务:当前帧图像中最大闭合显著性区域矩心距离图本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的行星表面地貌主动感知方法,其特征在于,包括步骤如下:步骤1):从一系列行星地貌图像集中提取图像SURF局部特征描述子,按照地貌类别逐一编目地貌所对应的特征描述子集合,即将归属同一类地貌的SURF特征描述子以集合的形式编目;步骤2):对SURF特征描述子集合的特征重复度进行检查,剔除相似度高的特征对及特征尺度过小的特征,将剩余的SURF特征描述子保留,并组建特征知识库;步骤3):将地貌感知以观测特征占比特征知识库比例的形式描述,并给出联合分布后验概率,根据该后验概率在增强学习框架中建立相应的奖励函数;步骤4):设定行星地貌主动感知的触发条件,在巡视器漫游巡视过程中,实时分析星载相机的图像局部显著性;当局部图像显著性满足触发条件时,执行SURF局部特征描述子提取,将所提取的SURF局部特征描述子作为观测量传递至强化学习训练体系,在该强化学习体系中控制量为相机云台调整角度θc以及相机的焦距fc;步骤5):将强化学习中策略迭代步骤更改为有限步长模式,并结合步骤3)中所建立的增强学习奖励函数、步骤1)中所建立的特征知识库,训练星载相机识别动作序列,完成地貌主动识别工作;步骤6):将地貌感知结果保存,巡视器继续漫游巡视任务。...

【技术特征摘要】
1.一种基于强化学习的行星表面地貌主动感知方法,其特征在于,包括步骤如下:步骤1):从一系列行星地貌图像集中提取图像SURF局部特征描述子,按照地貌类别逐一编目地貌所对应的特征描述子集合,即将归属同一类地貌的SURF特征描述子以集合的形式编目;步骤2):对SURF特征描述子集合的特征重复度进行检查,剔除相似度高的特征对及特征尺度过小的特征,将剩余的SURF特征描述子保留,并组建特征知识库;步骤3):将地貌感知以观测特征占比特征知识库比例的形式描述,并给出联合分布后验概率,根据该后验概率在增强学习框架中建立相应的奖励函数;步骤4):设定行星地貌主动感知的触发条件,在巡视器漫游巡视过程中,实时分析星载相机的图像局部显著性;当局部图像显著性满足触发条件时,执行SURF局部特征描述子提取,将所提取的SURF局部特征描述子作为观测量传递至强化学习训练体系,在该强化学习体系中控制量为相机云台调整角度θc以及相机的焦距fc;步骤5):将强化学习中策略迭代步骤更改为有限步长模式,并结合步骤3)中所建立的增强学习奖励函数、步骤1)中所建立的特征知识库,训练星载相机识别动作序列,完成地貌主动识别工作;步骤6):将地貌感知结果保存,巡视器继续漫游巡视任务。2.根据权利要求1所述的基于强化学习的行星表面地貌主动感知方法,其特征在于,所述步骤2)中特征重复度检查及组建特征知识库具体如下:21)采用SURF特征描述子在目标巡视区域卫星图像中进行局部特征提取;22)将所提取出的64维SURF特征描述子进行重复度筛选,剔除相似度高的特征对,其中相似度判定通过特征描述向量归一化后彼此点乘实现,此处将描述子点乘后乘积大于0.9的特征对剔除;23)将特征尺度小于3个像素的特征描述子剔除;24)保留两轮筛选后的特征描述子集合,组建地貌知识库。3.根据权利要求1所述的基于强化学习的行星表面地貌主动感知方法,其特征在于,所述步骤3)中执行SURF局部特征描述子提取范围为显著性检测区域内的局部图像区域。4.根据权利要求1所述的基于强化学习的行星表面地貌主动感知方法,其特征在于,所述步骤3)中奖励函数的设计如下:31)建立特征观测量与地貌特征集的相关性,采用贝叶斯条件后验概率模型描述:其中,为特征知识库中对应第k个地貌的特征描述子集合,为当前观测量与的交集,为第k个地貌与观测量相关性的先验概率,描述为:其中,其中,为不同类地貌被观测的概率,将其统一初始化为1/K,K为特征知识库中地貌的总个数;32)在得到相关性后验概率后,将离散香浓信息熵进行归一化来描述该后验概率分布的完备性:其中,Nm(k)是特征知识库中与从...

【专利技术属性】
技术研发人员:余萌李爽孙俊
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1