基于体素模型与颜色信息耦合的三维语义分割方法技术

技术编号:23401481 阅读:72 留言:0更新日期:2020-02-22 13:36
本发明专利技术所述基于体素模型与颜色信息耦合的三维语义分割方法,由三维CNN网络提取三维TSDF体素信息并结合三维重建过程中采集到的RGB图像,通过通道信息融合策略而直接实现端到端的三维语义分割,从而实现为三维重建技术之后的相关AR应用提供有力支持。三维语义分割方法包括有以下实施阶段:1)、二维RGB图像处理阶段;2)、三维TSDF体素模型处理阶段;3)、双通道信息融合及三维信息处理阶段。对于二维及三维信息进行融合;利用三维卷积神经网络进行最终的特征提取,从而得到最终的体素级别语义分割结果。

3D semantic segmentation method based on the coupling of voxel model and color information

【技术实现步骤摘要】
基于体素模型与颜色信息耦合的三维语义分割方法
本专利技术涉及一种应用于计算机视觉领域的新型三维语义分割方法,属于虚拟现实

技术介绍
目前利用深度学习实现的语义分割方法,主要分为基于RGB图像的二维分割与针对点云基于三维模型的语义分割。基于二维RGB图像处理的准确率较高,但是由于二维单目相机尺度的不确定性,二维图像先天性地缺少了相关物体的深度信息,而且二维RGB图像易受到光照条件等因素的影响,使得整体分割方法具有较为明显的局限性,难以充分综合利用图像的各方面特征信息。现在较为流行的三维语义分割方法,基于点云处理时的噪声较大、且点云具有无序性以及旋转不确定性等缺点,使得相关的点云语义分割方法虽然能一定程度上利用了空间深度信息,但是语义分割的效果仍然不尽如人意,无法满足多层次的VR、AR应用的需求,无法向VR、AR设备提供足够的场景交互支持。当前较为常见的基于深度相机的三维重建技术,在三维重建后仅生成了场景的mesh模型而缺少相应的场景语义信息,使得用户与场景的交互受限。同时,三维重建技术中所生成的场景模型却存储于TSDF体素模型中,此类针对体素级语义分割方法的缺失,直接造成了现有三维重建模型的语义分割障碍。有鉴于此,特提出本专利申请。
技术实现思路
本专利技术所述基于体素模型与颜色信息耦合的三维语义分割方法,其目的在于解决上述现有技术存在的问题而基于三维CNN网络提取三维TSDF体素信息,结合三维重建过程中采集到的RGB图像,通过通道信息融合策略而直接实现端到端的三维语义分割,从而实现为三维重建技术之后的相关AR应用提供有力支持。为实现上述专利技术目的,本申请所述的三维语义分割方法,主要采取三维卷积神经网络与二维卷积神经网络相耦合的方式,由三维卷积神经网络处理三维TSDF体素信息,由二维卷积神经网络处理二维的RGB图像信息,利用attention机制将二维与三维通道的信息融合并提取有效特征。并且,在二维通道中,对多视角下的RGB特征进行加权融合,以提高了多层次信息的利用率。基于体素模型与颜色信息耦合的三维语义分割方法主要包括有以下实施阶段:1)、二维RGB图像处理阶段针对于多个视角下的RGB图像,将多视角下的RGB图像送入backbone网络中,提取高维度图像二维特征信息;获得当前帧映射到世界坐标系下的相机姿态信息;利用RGB通道选择模块对于不同视角下的RGB二维特征赋予不同的权重;2)、三维TSDF体素模型处理阶段首先,进行前端三维模型重建;其次,采取符号距离函数对整个TSDF体素模型进行计算;然后,使用残差模块初步提取三维特征;将处理后的TSDF体素模型数据与上述经过RGB通道选择模块提取后的特征,均利用残差模块进行处理,以初步提取其相关的三维特征;3)、双通道信息融合及三维信息处理阶段对于二维及三维信息进行融合;利用三维卷积神经网络进行最终的特征提取,从而得到最终的体素级别语义分割结果。进一步地,所述的二维RGB图像处理阶段,在获得当前帧映射到世界坐标系下的相机姿态信息中,利用三维重建或者SFM技术通过多视角几何方法进行计算。在所述的RGB通道选择模块中,首先,将输入特征进行全局池化;然后,将全局池化后的结果利用1*1大小的卷积层进一步提取特征;之后,利用batchnormalization规范化特征的相关分布;最后,通过sigmoid激活函数处理,得到该模块提取出来的不同视角RGB特征的权重,并与输入特征进行点乘操作,得到输入特征加权后的结果。进一步地,所述的三维TSDF体素模型处理阶段,在前端三维重建过程中,将输入的RGB图像中的depth信息融入到TSDF模型中,以作为本申请所采用三维网络的输入。在残差模块中,首先,将输入特征首先通过1*1的卷积层进行降维,以减少整个模型的参数量、加速模型训练,并经过ReLU激活函数激活后送入3*3的卷积层进行特征提取;然后,利用1*1的卷积层进行升维恢复到原始的维度;最后,将输入特征与升维后的特征相加得到残差模块处理后的特征。进一步地,所述的双通道信息融合及三维信息处理阶段,在双通道信息融合模块中,首先,将RGB特征以及体素特征叠加在一起;然后,利用常用的3*3的卷积层+bacthnormalization+ReLU激活函数,针对叠加后的信息进行初步的信息提取;之后,进行全局池化,提取全局特征,通过1*1卷积层+ReLU激活函数+1*1卷积层进行进一步处理;最后,利用sigmoid激活函数得到各个特征通道相应的权重,与3*3卷积层处理后的特征点乘得到加权后的特征,再与未加权的特征相加得到双通道信息融合后所提取到的特征信息。综上,本申请所述三维语义分割方法具有的优点是:针对三维重建结果进行了后续针对性处理,通过利用三维重建过程中的颜色图、深度图、相机姿态以及最终的模型结果,实现了端到端的三维语义分割。通过通道信息融合,利用二维以及三维的多维度信息和注意力机制设计的通道选择模块,增加不同权重作为最终语义分割结果提供有效、直接和全面的指导。最终为三维重建的模型处理后提供了体素级别的标签,可以为空间中每一个位置分类,从而不仅能得到室内场景模型,而且知道模型每一部分是什么物体,为之后的相关AR交互应用提供了方便。附图说明图1是三维语义分割方法流程示意图;图2是RGB通道选择模块示意图;图3是前端三维重建流程示意图;图4是二维TSDF模型示意图;图5是残差模块示意图;图6是双通道信息融合模块示意图;图7是卧室内部场景三维模型示意图;图8是卧室内部场景语义分割结果示意图;图9是客厅内部场景三维模型示意图;图10是客厅内部场景语义分割结果示意图。具体实施方式下面结合附图和实施示例对本专利技术作进一步详细地描述。本申请所述基于体素模型与颜色信息耦合的三维语义分割方法,利用三维卷积神经网络提取TSDF体素信息,能够较好地将场景内的物体识别分割出来。但由于三维重建后得到的TSDF模型中的数据为稀疏结构,并不利于三维卷积神经网络的学习,因此采取对符号距离函数进行扩展计算以得到每个像素的值,以提高三维卷积神经网络对体素模型的提取效率,最终获得每个体素都带有语义标签的模型结果,从而实现用户与环境的更大自由度的场景交互。如图1所示的三维语义分割方法流程示意图,所述的三维语义分割方法主要包括有以下实施阶段:1、二维RGB图像处理阶段针对于多个视角下的RGB图像,可采取多种高效提取图像特征的网络结构设计,如VGG网络、ResNet网络、MobileNet系列网络、ShuffleNet系列网络以及Xception网络等。首先,将多视角下的RGB图像送入这些成熟的backbone网络中,快速提取其相关的高维度图像特征,为整体的语义分割网络提供有效的二维特征信息。其次,利用三维本文档来自技高网...

【技术保护点】
1.一种基于体素模型与颜色信息耦合的三维语义分割方法,其特征在于:包括以下实施阶段,/n1)、二维RGB图像处理阶段/n针对于多个视角下的RGB图像,将多视角下的RGB图像送入backbone网络中,提取高维度图像二维特征信息;/n获得当前帧映射到世界坐标系下的相机姿态信息;/n利用RGB通道选择模块对于不同视角下的RGB二维特征赋予不同的权重;/n2)、三维TSDF体素模型处理阶段/n首先,进行前端三维模型重建;/n其次,采取符号距离函数对整个TSDF体素模型进行计算;/n然后,使用残差模块初步提取三维特征;/n将处理后的TSDF体素模型数据与上述经过RGB通道选择模块提取后的特征,均利用残差模块进行处理,以初步提取其相关的三维特征;/n3)、双通道信息融合及三维信息处理阶段/n对于二维及三维信息进行融合;/n利用三维卷积神经网络进行最终的特征提取,从而得到最终的体素级别语义分割结果。/n

【技术特征摘要】
1.一种基于体素模型与颜色信息耦合的三维语义分割方法,其特征在于:包括以下实施阶段,
1)、二维RGB图像处理阶段
针对于多个视角下的RGB图像,将多视角下的RGB图像送入backbone网络中,提取高维度图像二维特征信息;
获得当前帧映射到世界坐标系下的相机姿态信息;
利用RGB通道选择模块对于不同视角下的RGB二维特征赋予不同的权重;
2)、三维TSDF体素模型处理阶段
首先,进行前端三维模型重建;
其次,采取符号距离函数对整个TSDF体素模型进行计算;
然后,使用残差模块初步提取三维特征;
将处理后的TSDF体素模型数据与上述经过RGB通道选择模块提取后的特征,均利用残差模块进行处理,以初步提取其相关的三维特征;
3)、双通道信息融合及三维信息处理阶段
对于二维及三维信息进行融合;
利用三维卷积神经网络进行最终的特征提取,从而得到最终的体素级别语义分割结果。


2.根据权利要求1所述的基于体素模型与颜色信息耦合的三维语义分割方法,其特征在于:所述的二维RGB图像处理阶段,在获得当前帧映射到世界坐标系下的相机姿态信息中,利用三维重建或者SFM技术通过多视角几何方法进行计算。


3.根据权利要求1或2所述的基于体素模型与颜色信息耦合的三维语义分割方法,其特征在于:所述的二维RGB图像处理阶段,在所述的RGB通道选择模块中,首先,将输入特征进行全局池化;然后,将全局池化后的结果利用1*1大小的卷积层进一步提取特征;之后,利用batchnormalization规范化特征的相...

【专利技术属性】
技术研发人员:齐越刘麟祺包永堂王晨
申请(专利权)人:北京航空航天大学青岛研究院北京航空航天大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1