一种基于对象掩码网络的形状感知实例分割方法技术

技术编号:15504840 阅读:37 留言:0更新日期:2017-06-04 00:39
本发明专利技术中提出的一种基于对象掩码网络的形状感知实例分割方法,其主要内容包括:形状感知分割预测和学习实例分割,其过程为,使用密集多值映射编码对对象的形状进行建模,对于框中的每个像素到对象边界的最小距离,通过逆距离变换将该多值图转换为二进制掩码来实现对象分割。使用区域网络来生成初始的包围框的建议;对每一个执行感兴趣区域来使特征变形,将结果传递给对象掩码网络并产生结果。通过将对象掩码网络集成到多级网络级联中来构造形状感知实例分割网络和多级形状感知实例分割网络,并通过端到端的方式训练它。本发明专利技术分割细致,精确度高,误差较小,将有助于完善和扩展现有图像分割的理论与方法,为图像分析与理解等应用提供实用工具。

An object segmentation method based on object mask network for shape perception

The present invention in a segmentation method of shape perception object mask based on network, the main contents include: shape perception segmentation prediction and study examples of segmentation, the process is the use of intensive, multi valued mapping of object shape encoding model for minimum distance frame in each pixel to the object boundary, through inverse distance transform the image into a binary mask to achieve multi valued object segmentation. A proposal for generating an initial bounding box using a local network; for each performing a region of interest to deform the feature, passing the result to the object mask network and producing the result. By integrating an object mask network into a cascade of multistage networks, a shape aware segmentation network and a multilevel shape aware instance segmentation network are constructed and trained in an end-to-end fashion. The invention has the advantages of fine segmentation, high accuracy and small error, and is helpful for improving and expanding the theory and method of the existing image segmentation, and provides a practical tool for image analysis and understanding.

【技术实现步骤摘要】
一种基于对象掩码网络的形状感知实例分割方法
本专利技术涉及图像分割领域,尤其是涉及了一种基于对象掩码网络的形状感知实例分割方法。
技术介绍
随着科学技术的发展,数字图像的数量也与日俱增,因此对于数字图像技术的需求也与日俱增。为了更好地识别和理解图像中的内容,图像分割技术显得尤为重要。图像分割是由图像处理向图像分析与理解过渡的重要桥梁,是计算机视觉等相关研究领域的基础科学问题。图像分割可以实现计算机分辨图像的各个部分以及识别它们的类型和颜色,在交通运输方面,由于可以通过分割识别行人,车辆,路况,交通信号灯,交通警告标志等,从而辅助驾驶系统技术,无人驾驶智能车辆技术等。然而,目前的图像分割方法并不完善,仍存在图像分割不细致,不能实现自动分割等问题。本专利技术提出了一种基于对象掩码网络的形状感知实例分割方法,使用密集多值映射编码对对象的形状进行建模,对于框中的每个像素到对象边界的(截断的)最小距离,通过逆距离变换将该多值图转换为二进制掩码来实现对象分割。使用区域网络(RPN)来生成初始的包围框的建议;对每一个执行感兴趣区域(RoI)来使特征变形,将结果传递给对象掩码网络并产生结果。通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络和多级形状感知实例分割网络,并通过端到端的方式训练它。本专利技术分割细致,精确度高,误差较小,将有助于完善和扩展现有水平集图像分割的理论与方法,也为图像分析与理解等高层应用提供实用工具。
技术实现思路
针对图像分割不细致等问题,本专利技术的目的在于提供一种基于对象掩码网络的形状感知实例分割方法,使用密集多值映射编码对对象的形状进行建模,对于框中的每个像素到对象边界的(截断的)最小距离,通过逆距离变换将该多值图转换为二进制掩码来实现对象分割。使用区域网络(RPN)来生成初始的包围框的建议;对每一个执行感兴趣区域(RoI)来使特征变形,将结果传递给对象掩码网络并产生结果。通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络和多级形状感知实例分割网络,并通过端到端的方式训练它。为解决上述问题,本专利技术提供一种基于对象掩码网络的形状感知实例分割方法,其主要内容包括:(一)形状感知分割预测;(二)学习实例分割。其中,所述的形状感知分割预测,包括形状感知掩码表示和对象掩码网络(OMN)。进一步地,所述的形状感知掩码表示,给定一个窗口,描绘了一个潜在的部分观察对象,从一个包围框中获得图像,目标是产生整个对象的掩码;在图像中的每个像素的值代表距离最近的对象边界;不同的窗口大小和物体的形状、距离变换可以产生大范围不同的值,这将导致较少的改变;因此,规范窗口为普通大小和截断距离变换得到一个限定范围内的值;明确地使Q表示对象边界和对象外部的像素集;对于归一化的窗口中的每一个像素p,计算对于Q的截断距离D(p),即其中,d(p,q)是像素p和q之间的欧氏空间距离,返回最接近x且大于x的整数,R是截断阈值,即要代表的最大距离;然后,直接使用D作为致密对象表示;首先,像素的值给出了对象边界位置的信息,即使该像素属于对象的内部;因此,我们的表示是遮挡不准确的包围框产生的部分;其次,因为每个像素有一个距离值,这种表示是多余的,因此在一定程度上的像素映射的噪声有较强的鲁棒性;更重要的是,预测这样的表示,可以配制成像素的标签任务;为了进一步推动这一标注任务,量化值的像素映射到K一致的二进制;换句话说,将截断距离像素p,用k维二进制向量b(p)表示为其中,rn对应于第n个二进制的距离值;通过编码,将多值像素映射到一组K个二进制像素图;这使我们能够把预测密集的地图翻译成一组像素二进制分类任务的问题;给定一个对象段的密集像素地图(或K个二进制地图),应用逆距离变换,可以近似恢复完整的对象掩码;具体来说,通过每个像素与一个二进制磁盘的半径D(p)关联来构建对象掩码;通过联合所有的磁盘计算对象掩码M,T(p,r)代表像素p半径为r的磁盘;对象掩码可以表示为:其中,*代表卷积算子,Bn是二进制像素图的第n个二进制。进一步地,所述的对象掩码网络(OMN),形状感知表示每个输入图像产生每个对象掩码;为此,我们设计了一个深度神经网络来预测包围框,建议每个包围框K形状感知的密集二进制图,每个框通过公式(3)解码成一个完整的对象掩码;在实践中,建议使用区域网络(RPN)来生成初始的包围盒的建议;对于它们中的每一个,执行感兴趣区域(RoI)来使特征变形,将结果传递给网络,并通过网络产生结果。进一步地,所述的对象掩码网络,它由以下两个模块组成:给定RoI扭曲的一个边界框的特征作为输入,网络中的第一模块预测编码,我们(近似)截断距离变换的K二进制掩码;具体来说,对于第n个二进制掩码,使用具有S形激活函数的完全连接层来预测近似于Bn的像素概率图;给定K个概率图,设计一个新的残差反卷积网络模块,将它们解码为二进制对象掩码;然后用一系列加权求和层,接着用S形函数近似联合运算符;训练期间学习求和层中的权重;为了适应反卷积滤波器的不同大小,在每个加权求和之前对与网络中的较小的rn值相对应的反卷积的输出进行上采样;为此,使用K的固定步长值;OMN是完全可微分的,并且解码模块的输出可以使用交叉熵损失,以高分辨率直接与地面实况进行比较;这允许我们以端到端的方式训练OMN,包括初始RPN,或者将其与分类模块集成以执行实例级语义分段。其中,所述的学习实例分割,通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络;由于OMN模块是可区分的,故可以通过端到端的方式训练整个实例分段网络;包括形状感知实例分割网络和网络学习与推理。进一步地,所述的形状感知实例分割网络,分割网络包括三个子网络,对应于边界框提议生成,对象模板预测和对象分类的任务;第一个模块包括从输入图像中提取特征表示的深度CNN,然后是RPN,后者生成一组边界框建议;在RoI扭曲之后,通过每个提议通过OMN产生一个段掩码;最后,在原始MNC网络中,通过使用特征掩蔽层中的预测掩码,并且与边界框特征连接来计算掩码特征;然后将所得到的表示馈送到第三子网络中,该第三子网络由用于分类和边界框回归的单个完全连接的层组成。进一步地,所述的多级形状感知实例分割网络,将上述的SAIS网络(可以被认为是3级级联)扩展到5级级联;基于OMN的输出来细化边界框建议的初始集合,并且因此改进预测的分段;前三个阶段由上述模型组成,即VGG16卷积层,RPN,OMN,分类模块和边界框预测;然后使用由第三阶段的边界框回归部分产生的预测偏移来细化初始框;这些新框通过RoI扭曲用作对应于第二OMN的第四阶段的输入;其输出然后在最后阶段与精制箱结合用于分类目的;在这个5级级联中,两个OMN和两个分类模块的权重是共享的。进一步地,所述的网络学习与推理,SAIS网络是完全可区分的,因此以端到端的方式来训练它;为此,使用多任务损失函数来考虑边界框,对象掩码和分类错误;具体来说,使用softmax损失的RPN和分类,以及OMN的二进制交叉熵损失;在五级级联中,在第三和第五级之后计算边界框和掩码损耗,并且使用平滑L1损失进行边界框回归;使用随机梯度下降(SGD)将本文档来自技高网...
一种基于对象掩码网络的形状感知实例分割方法

【技术保护点】
一种基于对象掩码网络的形状感知实例分割方法,其特征在于,主要包括形状感知分割预测(一);学习实例分割(二)。

【技术特征摘要】
1.一种基于对象掩码网络的形状感知实例分割方法,其特征在于,主要包括形状感知分割预测(一);学习实例分割(二)。2.基于权利要求书1所述的形状感知分割预测(一),其特征在于,包括形状感知掩码表示和对象掩码网络(OMN)。3.基于权利要求书1所述的形状感知掩码表示,其特征在于,给定一个窗口,描绘了一个潜在的部分观察对象,从一个包围框中获得图像,目标是产生整个对象的掩码;在图像中的每个像素的值代表距离最近的对象边界;不同的窗口大小和物体的形状、距离变换可以产生大范围不同的值,这将导致较少的改变;因此,规范窗口为普通大小和截断距离变换得到一个限定范围内的值;明确地使Q表示对象边界和对象外部的像素集;对于归一化的窗口中的每一个像素p,计算对于Q的截断距离D(p),即其中,d(p,q)是像素p和q之间的欧氏空间距离,返回最接近x且大于x的整数,R是截断阈值,即要代表的最大距离;然后,直接使用D作为致密对象表示;首先,像素的值给出了对象边界位置的信息,即使该像素属于对象的内部;因此,我们的表示是遮挡不准确的包围框产生的部分;其次,因为每个像素有一个距离值,这种表示是多余的,因此在一定程度上的像素映射的噪声有较强的鲁棒性;更重要的是,预测这样的表示,可以配制成像素的标签任务;为了进一步推动这一标注任务,量化值的像素映射到K一致的二进制;换句话说,将截断距离像素p,用k维二进制向量b(p)表示为其中,rn对应于第n个二进制的距离值;通过编码,将多值像素映射到一组K个二进制像素图;这使我们能够把预测密集的地图翻译成一组像素二进制分类任务的问题;给定一个对象段的密集像素地图(或K个二进制地图),应用逆距离变换,可以近似恢复完整的对象掩码;具体来说,通过每个像素与一个二进制磁盘的半径D(p)关联来构建对象掩码;通过联合所有的磁盘计算对象掩码M,T(p,r)代表像素p半径为r的磁盘;对象掩码可以表示为:其中,*代表卷积算子,Bn是二进制像素图的第n个二进制。4.基于权利要求书1所述的对象掩码网络(OMN),其特征在于,形状感知表示每个输入图像产生每个对象掩码;为此,我们设计了一个深度神经网络来预测包围框,建议每个包围框K形状感知的密集二进制图,每个框通过公式(3)解码成一个完整的对象掩码;在实践中,建议使用区域网络(RPN)来生成初始的包围盒的建议;对于它们中的每一个,执行感兴趣区域(RoI)来使特征变形,将结果传递给网络,并通过网络产生结果。5.基于权利要求书4所述的对象掩码网络,其特征在于,它由以下两个模块组成:给定RoI扭曲的一个边界框的特征作为输入,网络中的第一模块预测编码,我们(近似)截断距离变换的K二进制掩码;具体来说,对于第n个二进制掩码,使用具有S形激活函数的完全连接层来预测近似于Bn的像素概率图...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1