一种基于RGBD图像与全残差网络的语义分割方法技术

技术编号:19178657 阅读:48 留言:0更新日期:2018-10-17 00:36
本发明专利技术公开了一种基于RGBD图像与全残差网络的语义分割方法,包括步骤:获取场景的RGB图像及深度图像,并传递到工作站中;在工作站对获取信息进行如下运算:在第一阶段中,把深度信息以及RGB颜色信息分别输入卷积神经网络的两个卷积分支中,进行下采样的卷积操作,并分多次把深度分支信息融合进颜色分支中;在第二阶段中,把第一阶段最后一次融合结果作为输入,进行上采样的卷积运算,同时获取第一阶段中各阶段特征层信息,将其融入上采样的各阶段中,直至输出语义分割结果。本发明专利技术中,除模型初始卷积与最后的反卷积外,其余卷积结构皆使用残差模块进行卷积运算;模型对于第一阶段与第二阶段的相同空间尺寸的特征层实行跳跃结构进行信息融合。本发明专利技术具有语义分析及边缘分割精确的优点。

A semantic segmentation method based on RGBD image and total residual network

The invention discloses a semantic segmentation method based on RGBD image and full residual network, which comprises steps: acquiring the RGB image and depth image of the scene and transferring them to the workstation; and performing the following operations on the workstation: in the first stage, depth information and RGB color information are input into the convolutional neural network respectively. In the second stage, the last fusion result of the first stage is taken as input, and the convolution operation is carried out. At the same time, the feature layer information of each stage in the first stage is obtained and integrated into the color branch. In each phase of the sampling, the result of semantic segmentation is output. In the present invention, except for the initial convolution and the final deconvolution of the model, the remaining convolution structures are all convoluted using residual modules; the model implements information fusion for the feature layers with the same spatial size in the first and second stages. The invention has the advantages of accurate semantic analysis and accurate edge segmentation.

【技术实现步骤摘要】
一种基于RGBD图像与全残差网络的语义分割方法
本专利技术属于机器视觉中语义分割方法领域,特别是一种基于RGBD图像与全残差网络的语义分割方法。
技术介绍
随着基于深度学习等机器学习方法在理论及应用中的不断发展,人工智能这一议题近期引起科学界及社会爆发性的广泛关注。人工智能中最为重要的议题之一就是如何实现机器对外界场景理解的能力。也即需要机器识别出所在场景中拥有什么物体,物体处于什么摆放位置。为实现此场景识别的能力,图像语义分割即被顺应提出。图像语义分割的目标是对图像中具有语义的对象,即特定类别的物体,如人、床、椅等对象进行识别,分割出该物体的所属像素区域。当机器人或智能系统获取到环境的语义分割结果后,能获得对周边环境的理解,从而进行物体抓取、行程规划、人机交互等行为。近年以来,随着Kinect等RGBD图像采集设备的普及,场景的深度信息的获取变得低廉,而场景的深度信息中富含物体的几何结构,可以成为RGB图像一个有力的补充。从这个角度出发,利用RGBD图像进行语义分割成为一个极具研究和实用价值的方向。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于RGBD图像与本文档来自技高网...

【技术保护点】
1.一种基于RGBD图像与全残差网络的语义分割方法,其特征在于,包括步骤:1)获取场景的RGB图像及相应的深度图像;2)将步骤1)中获得的深度图像与RGB图像信息传递至拥有图形运算单元GPU的工作站中;3)工作站把深度信息以及RGB信息分别输入两个基于卷积神经网络的深度学习分支中,分别称为深度分支及主分支,两分支具有相同的下采样结构;随着框架中卷积运算的递进,深度分支独立运算,而主分支在卷积运算的同时,在不同的卷积层中分多次融合深度分支的特征信息;两个分支中的特征层皆由残差模块组成,进行下采样卷积运算时,除初始卷积与最后的反卷积外,其余卷积结构皆使用残差模块进行卷积运算;4)将步骤3)中最后一...

【技术特征摘要】
1.一种基于RGBD图像与全残差网络的语义分割方法,其特征在于,包括步骤:1)获取场景的RGB图像及相应的深度图像;2)将步骤1)中获得的深度图像与RGB图像信息传递至拥有图形运算单元GPU的工作站中;3)工作站把深度信息以及RGB信息分别输入两个基于卷积神经网络的深度学习分支中,分别称为深度分支及主分支,两分支具有相同的下采样结构;随着框架中卷积运算的递进,深度分支独立运算,而主分支在卷积运算的同时,在不同的卷积层中分多次融合深度分支的特征信息;两个分支中的特征层皆由残差模块组成,进行下采样卷积运算时,除初始卷积与最后的反卷积外,其余卷积结构皆使用残差模块进行卷积运算;4)将步骤3)中最后一次融合结果作为步骤3)的输出,获取该输出,在该输出上进行上采样的卷积运算,同时获取步骤3)中各阶段特征层信息,将其融入上采样的各阶段中,直至输出语义分割结果;进行上采样卷积运算时,除了最后一个反卷积层,其余层皆使用残差模块进行卷积运算。2.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤1)中RGB图像及深度图像利用微软Kinect套件获取,其中RGB图像保留原始值,即值域为0-255的RGB三通道灰度值;深度图像再经过等比例缩放,具体是把Kinect输出基于0-65535值域范围的值等比例缩放为0-255使其与RGB图片在同一值域范围中。3.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤3)进行卷积运算的神经网络系统基于Pytorch深度学习库搭建,底层利用CUDA图形软件库进行卷积运算,整套系统运行于Ubuntu操作系统之上。4.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤3)中两个基于卷积神经网络的深度学习分支基于同一卷积神经网络框架,并相继使用卷积结构、池化结构,与残差层结构进行运算,其中,除了两个卷积神经网络的第一卷积层均具有7x7的卷积核外,所有其余卷积层与池化层都具3x3的内核。5.根据权利要求4所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤3)中主分支中的特征层Layer1,Layer2,Layer3,Layer4以及相应的深度分支的特征层Layer1_d,Layer2_d,Layer3_d,Layer4_d皆由多个残差模块组成,包括带下采样的残差模块与不带下采样的残差模块,其中:不带下采样的残差模块,由两个结构相同的卷积操作组成,该卷积操作拥有3x3的卷积核,且步幅与通道系数皆为1,两个残差的运算结果在模型的最后会与输入进行元素相加,形成一个完整的残差模块;带下采样的残差模块,由两部分组成,其中第一部分由两个卷积层组成,第一个拥有3x3的卷积核,且步幅与通道倍数皆为2,即对输入的空间尺寸进行下采样,并获得两倍于输入的特征通道的卷积层,另一个卷积层具有相同卷积核大小,但步幅与通道倍数皆为1;第二部分则为一个卷积核为1x1,步幅为2,通道倍数为2的“旁路卷积”,该旁路卷积对图像直接运算;最后,旁路卷积与上述两个卷积的运算结果相加,成为一个完整的带下采样的残差网络。6.根据权利要求5所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤3)中,卷积神经网络框架的结构为:a1、主分支第一卷积层Conv1以及深度分支中第一个卷积层Conv1_d,对RGB图像及深度图像进行64个卷积核卷积,即Conv1输出拥有64通道;b1、Pool1与Pool1_d对Conv1与Conv1_d经过步幅为2的最大化池化操作;c1、Layer1与Layer1_d对Pool1与Pool1_d的运算结果经过3个不带下采样的残差模块运算;d1、Layer2与Layer2_d对Layer1与Layer1_d的运算结果经过1个带下采样的残差模块与3个不带下采样的残差模块运算;e1、L...

【专利技术属性】
技术研发人员:张智军江锦东罗飞
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1