室内场景下的目标驱动视觉语义导航方法、存储介质及设备技术

技术编号:35855169 阅读:37 留言:0更新日期:2022-12-07 10:41
本发明专利技术提供一种室内场景下的目标驱动视觉语义导航方法、存储介质及设备,所述方法包括:分析室内场景数据中目标物体的尺寸分布情况;对尾部尺寸物体图像进行样本增强;基于增强后的尾部尺寸物体图像训练目标检测器;基于所述目标检测器和神经网络构建目标驱动下的视觉语义导航网络模型;对所述视觉语义导航网络模型进行训练;确定目标驱动下的视觉语义导航步骤,并基于所述视觉语义导航步骤和训练的所述视觉语义导航网络模型完成视觉语义导航任务。本发明专利技术可以辅助机器人在室内场景中进行导航,提升其场景感知能力,为室内移动机器人开展多种任务提供帮助。开展多种任务提供帮助。开展多种任务提供帮助。

【技术实现步骤摘要】
室内场景下的目标驱动视觉语义导航方法、存储介质及设备


[0001]本专利技术涉及场景感知和导航
,特别是涉及基于主动视觉的室内场景感知和导航


技术介绍

[0002]随着人口老龄化的现象越来越严重以及劳动力结构的优化升级,劳动力成本逐年增加,越来越多的行业开始讲目光投向以机器人为主导的解决方案。以机器人代替人来进行简单的、重复性较高的低技术作业,是解放劳动力的有效方法和未来趋势。室内环境中的机器人要求其具备良好的目标识别和导航能力,对机器人的自主性要求较高。想要其能够胜任更复杂的任务,提供更富人性化的服务,需要提升其对周围环境的感知能力。因此研究机器人在场景中的导航方法是具有现实意义和应用价值的。
[0003]为了实现机器人在室内场景中的视觉导航,目前的方法主要包括场景的三维度量以、语义映射以及路径规划。这类方法通常需要提前建立一个三维的场景地图,并为地图和路径跟踪提供一种可靠的定位,这使得它们在已知的场景中有较好的表现,在场景发生改变或者在类似的未知场景中时,策略的导航效果不尽如人意。为了克服上述方法的局限性,利用基于数据驱动的机器学习方式进行导航开始逐渐出现。这种方式以端到端的方式直接学习原始的视觉感知信息和机器人动作之间的逻辑映射关系,形成一种语义视觉导航的新模式。这种新模式下,导航不依赖地图进行,即使在新的类似环境中,也能够利用以往的导航经验进行导航。
[0004]经过对现有技术的公开文献检索发现,目前针对室内环境中的目标驱动下的视觉语义导航方式,只使用当前时刻数据来进行动作决策,历史时刻场景信息和相应动作信息对当前时刻决策的影响被忽略了。同时,在导航模型的训练过程中,模型的输出存在大量的非法动作,导致训练样例无效,造成数据的较低的利用率。并且在进行导航的过程中没有关注到目标物体在观察者视野中的成像质量,使得机器人接近目标物体后,检测器对目标物体不敏感。

技术实现思路

[0005]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种室内场景下的目标驱动视觉语义导航方法、存储介质及设备,用于解决现有技术中针对室内环境中的目标驱动下的视觉语义导航效果差的技术问题。
[0006]为实现上述目的及其他相关目的,本专利技术提供一种室内场景下的目标驱动视觉语义导航方法,所述方法包括:分析室内场景数据中目标物体的尺寸分布情况;对尾部尺寸物体图像进行样本增强;基于增强后的尾部尺寸物体图像训练目标检测器;基于所述目标检测器和神经网络构建目标驱动下的视觉语义导航网络模型;对所述视觉语义导航网络模型进行训练;确定目标驱动下的视觉语义导航步骤,并基于所述视觉语义导航步骤和训练的所述视觉语义导航网络模型完成视觉语义导航任务。
[0007]于本专利技术的一实施例中,所述分析室内场景数据中目标物体的尺寸分布情况包括:统计场景数据中大尺寸物体,中等尺寸物体,小尺寸物体的检测框的数量,以及包含大尺寸、中等尺寸、小尺寸物体的图像的数量,并分析它们各自的占比情况,得到数据集的尺寸分布情况,并确定占比最多的头部尺寸物体图像以及占比最少的尾部尺寸物体图像。
[0008]于本专利技术的一实施例中,所述对尾部尺寸物体图像进行样本增强包括:利用头部尺寸物体图像生成尾部尺寸物体图像:对于较大尺寸的头部尺寸物体图像生成较小尺寸的尾部尺寸物体图像采用图像缩小拼接的方式;对于较小尺寸的头部尺寸物体图像生成较大尺寸的尾部尺寸物体图像采用自适应局部截取放大法。
[0009]于本专利技术的一实施例中,所述基于增强后的尾部尺寸物体图像训练目标检测器包括:基于增强后的尾部尺寸物体图像构建数据集终态;在数据集终态和数据集初态之间构建一系列的数据集过渡态,在每个训练迭代中,选取不同的数据集过渡态对目标检测器进行训练。
[0010]于本专利技术的一实施例中,所述基于所述目标检测器和神经网络构建目标驱动下的视觉语义导航网络模型中:输入为:取当前时刻为基准的前三个时刻的场景信息和相应的动作信息,作为历史时刻信息进行输入;输出为:前进、后退、左移、右移、顺时针转动、逆时针转动六维动作空间中概率分数最大的一个动作。
[0011]于本专利技术的一实施例中,所述基于所述目标检测器和神经网络构建目标驱动下的视觉语义导航网络模型中:利用基于长短期记忆神经网络和卷积神经网络提取当前时刻场景信息,目标矩形标定框,动作空间信息的特征量,构建上述特征量与输出之间的映射关系,建立相应的视觉语义导航模型。
[0012]于本专利技术的一实施例中,所述对所述视觉语义导航网络模型进行训练包括:采用预设步长为一个训练批次;若在一个训练批次内,机器人与目标物体的距离信息小于距离度量阈值且物体在视野内的检测评分高于评分阈值,则说明此时机器人已经完成了导航任务,开始下一批次的训练;否则,令机器人根据导航策略重复上述决策、移动过程,直到机器人满足上述任务结束条件或者决策步长达到所述预设步长;在每个批次的一系列动作尝试结束之后,评估相应的奖励因子,并基于奖励因子对所述视觉语义导航网络模型的权重进行更新,使得所述视觉语义导航网络模型能够学习到相应的导航策略。
[0013]于本专利技术的一实施例中,所述目标驱动下的视觉语义导航步骤包括:所述视觉语义导航网络模型接收场景的RGB

D图像,对目标的观察角度和距离进行评估,产生动作决策,调整机器人位置,在新的位置下重复上述决策过程,直到机器人到达目标附近或者决策次数达到上限。
[0014]为实现上述目的及其他相关目的,本专利技术还提供一种存储介质,存储有程序指令,其中,所述程序指令被执行时实现如上所述的室内场景下的目标驱动视觉语义导航方法的步骤。
[0015]为实现上述目的及其他相关目的,本专利技术还提供一种电子设备,包括存储器,用于存储计算机程序;处理器,用于运行所述计算机程序以实现如上所述的室内场景下的目标驱动视觉语义导航方法的步骤。
[0016]为实现上述目的及其他相关目的,本专利技术还提供一种移动机器人,应用如上所述的电子设备。
[0017]如上所述,本专利技术的室内场景下的目标驱动视觉语义导航方法、存储介质及设备具有以下有益效果:
[0018]本专利技术通过分析场景数据中的物体尺寸分布不平衡现象与模型对不同尺寸物体检测能力差异之间的联系,设计了一种多尺寸目标自适应的图像增强方法,用来完成对不同尺寸物体图像的增强,并基于这种方式设计实现了一种数据集物体尺寸分布动态平衡方法,动态地调整训练过程中数据集内不同尺寸物体的分布状态,来增强尾部尺寸物体对模型的监督。在保证模型对头部尺寸物体的检测性能的情况下,提高其对尾部尺寸物体的检测能力。同时基于Conv

LSTM与CNN网络构建了一种视觉语义导航网络模型,建立了优化的LSTM初始化方法和基于动作空间优化的模型训练方法,使得模型能够直接根据场景语义上下文信息产生导航策略,不依赖于的场景地图建模,并使得在已知场景中构建的导航策略能够衍生到类似的未知场景中。本专利技术可以辅助机器人在室内场景中进行导航,提升其场景感知能力,为室内移动机器人开展多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种室内场景下的目标驱动视觉语义导航方法,其特征在于:所述方法包括:分析室内场景数据中目标物体的尺寸分布情况;对尾部尺寸物体图像进行样本增强;基于增强后的尾部尺寸物体图像训练目标检测器;基于所述目标检测器和神经网络构建目标驱动下的视觉语义导航网络模型;对所述视觉语义导航网络模型进行训练;确定目标驱动下的视觉语义导航步骤,并基于所述视觉语义导航步骤和训练的所述视觉语义导航网络模型完成视觉语义导航任务。2.根据权利要求1所述的室内场景下的目标驱动视觉语义导航方法,其特征在于:所述分析室内场景数据中目标物体的尺寸分布情况包括:统计场景数据中大尺寸物体,中等尺寸物体,小尺寸物体的检测框的数量,以及包含大尺寸、中等尺寸、小尺寸物体的图像的数量,并分析它们各自的占比情况,得到数据集的尺寸分布情况,并确定占比最多的头部尺寸物体图像以及占比最少的尾部尺寸物体图像。3.根据权利要求2所述的室内场景下的目标驱动视觉语义导航方法,其特征在于:所述对尾部尺寸物体图像进行样本增强包括:利用头部尺寸物体图像生成尾部尺寸物体图像:对于较大尺寸的头部尺寸物体图像生成较小尺寸的尾部尺寸物体图像采用图像缩小拼接的方式;对于较小尺寸的头部尺寸物体图像生成较大尺寸的尾部尺寸物体图像采用自适应局部截取放大法。4.根据权利要求1或3所述的室内场景下的目标驱动视觉语义导航方法,其特征在于:所述基于增强后的尾部尺寸物体图像训练目标检测器包括:基于增强后的尾部尺寸物体图像构建数据集终态;在数据集终态和数据集初态之间构建一系列的数据集过渡态,在每个训练迭代中,选取不同的数据集过渡态对目标检测器进行训练。5.根据权利要求1所述的室内场景下的目标驱动视觉语义导航方法,其特征在于:所述基于所述目标检测器和神经网络构建目标驱动下的视觉语义导航网络模型中:输入为:取当前时刻为基准的前三个时刻的场景信息和相应的动作信息,作为历史时刻信息进行输入;输出为:前进、后退、左移...

【专利技术属性】
技术研发人员:叶楠李柠王若谷
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1