一种三维语义地图的构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24251529 阅读:36 留言:0更新日期:2020-05-22 23:34
本申请涉及一种三维语义地图的构建方法、装置、电子设备及存储介质,该方法通过获取环境图像集合,并根据已训练的语义分割模型对环境图像集合进行语义分割,得到语义图像序列。将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上,得到第一点云集合,第一点云集合中的第一点云对应每帧语义图像。对第一点云集合进行滤波,得到滤波后的第一点云集合;对滤波后的第一点云集合中的第一点云进行聚类处理,得到第二点云集合;对第二点云集合进行滤波,得到三维语义地图。本申请将彩色图像序列和深度图像序列结合作为语义分割模型的输入,如此,可以提升语义预测能力,且基于带语义的点云分层次地进行滤波,可以节约缓存、提升实时性。

A construction method, device, electronic equipment and storage medium of 3D semantic map

【技术实现步骤摘要】
一种三维语义地图的构建方法、装置、电子设备及存储介质
本申请涉及机器视觉
,特别涉及一种三维语义地图的构建方法、装置、电子设备及存储介质。
技术介绍
21世纪以来,人工智能在计算机领域受到了愈加广泛的重视,其理论和技术日益成熟,应用领域也不断扩大。机器人是人工智能技术的最直接、最普遍的应用,在未来将作为新型生产工具提高人类生产力并不断扩展人类活动领域。智能机器人能够像人类一样在现实场景中进行正确的动态决策与规划、行为控制、任务执行等活动,其基础和关键在于机器人对这个世界的正确感知。对于许多如营救被困人员或者在未知环境中寻找给定类型的目标等任务,不仅需要机器人自身定位以及感知周围环境几何信息,更需要机器人有能力了解场景及其内部包含对象的语义信息。举个例子,救援机器人应该能够识别场景中的障碍物和救援目标,并了解障碍物是墙壁、椅子、书架还是其他障碍物。因此,构建一个有语义标注的三维地图是任务型机器人正确感知三维场景的几何及语义信息,从而高效地完成相关任务的基础,是当前人工智能领域极具应用前景和社会价值的研究方向。机器人三维场景感知是指机器人能够依靠传感器获取周围环境的信息,并处理提取出环境中有效的三维几何或语义特征,最后表示成机器人能够理解的模式的过程。该过程的关键目的是获得场景的三维语义地图,目前主要有两种思路,一种是先重建出场景的三维几何点云,然后利用三维点云语义分割方法将该点云地图进行语义分割,最终获得场景的三维语义地图。由于现有点云语义分割算法性能的局限性,其很难直接分割重建得到的带有大量噪点的场景点云,而目前仍未找到较好的方法能使得重建出来的场景点云通过点云语义分割方式得到高精度语义地图。再者,随着场景规模的扩大,三维点云地图的内存占用和计算成本必然增大,通过该思路获得语义地图就更不现实。因此,另外一种在三维空间中融合2D语义分割结果的语义建图方法则开始受到广泛关注。一般的语义建图系统主要包含三个分支:2D图像语义分割、位姿估计以及语义融合。鉴于近年来深度卷积神经网络在图像领域语义分割任务上取得的显著成果,越来越多的语义建图系统的语义分割分支尝试利用深度学习技术在这方面的优势,以获得更加准确的语义预测。语义融合分支则基于贝叶斯公式或者条件随机场,对语义分割网络得到的逐点语义预测概率进行融合,而存储多帧逐点的多个类别的预测概率本身又是一件耗时且占缓存的事情。目前的语义建图系统很难达到实时,根本原因主要是其2D语义分割手段和语义融合算法原理上无法满足实时性要求。对于室内场景,现有语义建图系统在2D语义分割分支得到的语义分割结果正确率低、鲁棒性差。原因是室内场景物品种类繁杂、数量多,且相同类别的物体纹理也具有多样性。然而大多数深度神经网络仅对RGB图像进行处理,对光度和纹理信息的过度依赖是这些方法语义分割能力差的原因之一。此外,从室内场景采集得到的视频序列往往由于相机视场和室内空间有限,致使单帧图像中某些物体的轮廓并不能完整地被呈现,再加上标注人员容易在物体边缘(交界)处出现语义标注偏差,这种不可靠的输入信号和监督信号必然造成网络对某些物体的感知出现混淆。对于语义融合分支,现有语义融合方法一般都基于贝叶斯公式或者条件随机场,即对每个像素点在不同帧中预测的语义类别概率进行融合,最终得到该点的语义类别。因此,存储多帧逐点的多个类别的预测概率则成了融合算法实施过程中既耗时又占缓存的必需中间步骤。而目前的语义建图系统很难达到实时,除了2D语义分割网络用时较多,另外很大一部分原因是基于概率的语义融合算法在原理上就很难实现实时。此外,现有语义融合算法均采用固定融合前后n帧的语义信息,而没有考虑两帧之间如果视角差异太大,其捕捉到的纹理相差也很大,预测得到的语义类别很可能不同,融合这种由于视角变化大而导致的语义冲突对整个场景的语义分割意义不大,甚至会对正确预测产生不良影响。
技术实现思路
本申请实施例提供了一种三维语义地图的构建方法、装置、电子设备及存储介质,一方面,可以提升语义预测能力;另一方面,可以节约缓存、提升实时性。一方面,本申请实施例提供了一种三维语义地图的构建方法,包括:获取环境图像集合;环境图像集合包括彩色图像序列和深度图像序列;彩色图像序列和深度图像序列一一对应;根据已训练的语义分割模型对环境图像集合进行语义分割,得到语义图像序列;语义图像序列和彩色图像序列一一对应;根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上,得到每帧语义图像对应的点云;基于每帧语义图像对应的点云确定第一点云集合,第一点云集合中的第一点云对应每帧语义图像;对第一点云集合进行滤波,得到滤波后的第一点云集合;对滤波后的第一点云集合中的第一点云进行聚类处理,得到第二点云集合;第二点云集合中的第二点云包括至少一个第一点云,且第二点云中的第一点云为连续的第一点云;对第二点云集合进行滤波,得到三维语义地图。另一方面,本申请实施例提供了一种三维语义地图的构建装置,包括:获取模块,用于获取环境图像集合;环境图像集合包括彩色图像序列和深度图像序列;彩色图像序列和深度图像序列一一对应;语义分割模块,用于根据已训练的语义分割模型对环境图像集合进行语义分割,得到语义图像序列;语义图像序列和彩色图像序列一一对应;投射模块,用于根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上,得到每帧语义图像对应的点云;确定模块,用于基于每帧语义图像对应的点云确定第一点云集合,第一点云集合中的第一点云对应每帧语义图像;第一滤波模块,用于对第一点云集合进行滤波,得到滤波后的第一点云集合;处理模块,用于对滤波后的第一点云集合中的第一点云进行聚类处理,得到第二点云集合;第二点云集合中的第二点云包括至少一个第一点云,且第二点云中的第一点云为连续的第一点云;第二滤波模块,用于对第二点云集合进行滤波,得到三维语义地图。另一方面,本申请实施例提供了一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行上述的一种三维语义地图的构建方法。另一方面,本申请实施例提供了一种计算机存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种三维语义地图的构建方法。本申请实施例提供的一种三维语义地图的构建方法、装置、电子设备及存储介质具有如下有益效果:通过获取环境图像集合;环境图像集合包括彩色图像序列和深度图像序列;彩色图像序列和深度图像序列一一对应;根据已训练的语义分割模型对环境图像集合进行语义分割,得到语义图像序列;语义图像序列和彩色图像序列一一对应;根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上,得到每帧语义图本文档来自技高网
...

【技术保护点】
1.一种三维语义地图的构建方法,其特征在于,包括:/n获取环境图像集合;所述环境图像集合包括彩色图像序列和深度图像序列;所述彩色图像序列和所述深度图像序列一一对应;/n根据已训练的语义分割模型对所述环境图像集合进行语义分割,得到语义图像序列;所述语义图像序列和所述彩色图像序列一一对应;/n根据所述深度图像序列和所述环境图像集合中每张环境图像中的位姿信息将所述语义图像序列的每帧语义图像投射到预先建立的三维坐标系上,得到每帧语义图像对应的点云;/n基于所述每帧语义图像对应的点云确定第一点云集合,所述第一点云集合中的第一点云对应所述每帧语义图像;/n对所述第一点云集合进行滤波,得到所述滤波后的第一点云集合;/n对所述滤波后的第一点云集合中的第一点云进行聚类处理,得到第二点云集合;所述第二点云集合中的第二点云包括至少一个第一点云,且所述第二点云中的第一点云为连续的第一点云;/n对所述第二点云集合进行滤波,得到三维语义地图。/n

【技术特征摘要】
1.一种三维语义地图的构建方法,其特征在于,包括:
获取环境图像集合;所述环境图像集合包括彩色图像序列和深度图像序列;所述彩色图像序列和所述深度图像序列一一对应;
根据已训练的语义分割模型对所述环境图像集合进行语义分割,得到语义图像序列;所述语义图像序列和所述彩色图像序列一一对应;
根据所述深度图像序列和所述环境图像集合中每张环境图像中的位姿信息将所述语义图像序列的每帧语义图像投射到预先建立的三维坐标系上,得到每帧语义图像对应的点云;
基于所述每帧语义图像对应的点云确定第一点云集合,所述第一点云集合中的第一点云对应所述每帧语义图像;
对所述第一点云集合进行滤波,得到所述滤波后的第一点云集合;
对所述滤波后的第一点云集合中的第一点云进行聚类处理,得到第二点云集合;所述第二点云集合中的第二点云包括至少一个第一点云,且所述第二点云中的第一点云为连续的第一点云;
对所述第二点云集合进行滤波,得到三维语义地图。


2.根据权利要求1所述的方法,其特征在于,所述已训练的语义分割模型为多层级结构;每个所述层级结构包括主流网络子模块、辅流网络子模块和融合模块;
所述当前层级结构的主流网络子模块的输入端与所述上一层级结构中的融合模块的输出端连接;
所述当前层级结构的辅流网络子模块的输入端与所述上一层级结构中的辅流网络子模块的输出端连接;
所述融合模块包括第一拼接模块、第一注意力模块、第二注意力模块、第一乘法器、第二乘法器、加法器、第二拼接模块、第一卷积模块和第二卷积模块;
所述第一拼接模块的输入端分别和所述上一层级结构中的主流网络子模块的输出端和所述上一层级结构中的辅流网络子模块的输出端连接;
所述第一注意力模块的输入端与所述第二注意力模块的输入端均与所述第一拼接模块的输出端连接;
所述第一乘法器的输入端分别与所述上一层级结构中的主流网络子模块的输出端和所述第一注意力模块的输出端连接;所述第二乘法器的输入端分别与所述上一层级结构中的辅流网络子模块的输出端和所述第二注意力模块的输出端连接;
所述加法器的输入端分别与所述第一乘法器的输出端和所述第二乘法器的输出端连接;
所述第一卷积模块的输入端与所述上一层的融合模块的输出端连接;
所述第二拼接模块的输入端分别与所述加法器的输出端和所述第一卷积模块的输出端连接;
所述第二卷积模块的输入端与所述第二拼接模块的输出端连接。


3.根据权利要求1所述的方法,其特征在于,所述方法还包括基于带有歧视的交叉熵损失函数对未训练的语义分隔模型进行训练,得到所述已训练的语义分割模型的步骤;
所述基于带有歧视的交叉熵损失函数对未训练的语义分隔模型进行训练,得到所述已训练的语义分割模型,包括:
确定所述带有歧视的交叉熵损失函数;
根据所述未训练的语义分隔模型对训练数据进行语义分割,得到第一语义图像;
基于所述交叉熵损失函数、第一语义图像和理想语义图像确定损失值;
当所述损失值大于预设阈值时,基于所述损失值进行反向传播,对所述未训练的语义分隔模型进行更新以得到更新后的语义分隔模型;重复步骤:根据所述未训练的语义分隔模型对训练数据进行语义分割,得到第一语义图像;基于所述交叉熵损失函数、第一语义图像和理想语义图像确定损失值;
当所述损失值小于预设阈值时,得到所述已训练的语义分割模型。


4.根据权利要求3所述的方法,其特征在于,所述确定所述带有歧视的交叉熵损失函数,包括:
确定所述语义序列的每帧语义图像中每个像素的内敛值,得到内敛图;所述内敛值是当前像素和最近不同类像素之间的距离值;
基于所述内敛图确定歧视性掩膜;
基于所述歧视性掩膜确定所述带有歧视的交叉熵损失函数。


5.根据权利要求1所述的方法,其特征在于,所述对所述第一点云集合进行滤波,包括:
针对所述第一点云集合中的每个第一点云:将所述第一点云分隔成多个点集合;确定所述第一点云中每个特征点所属的对象类别;
针对所述多个点集合中的每个点集合:从所述点集合中确定质心点,基于所述质心点所属的对象类别确定目标点集合;所述目标点集合中...

【专利技术属性】
技术研发人员:李嘉茂石文君张晓林朱冬晨
申请(专利权)人:中国科学院上海微系统与信息技术研究所
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1