用于对象分割的方法、数据处理系统、计算机程序产品和计算机可读介质技术方案

技术编号:37634190 阅读:13 留言:0更新日期:2023-05-20 08:54
本发明专利技术是一种用于图像中的对象分割的方法,包括以下步骤:

【技术实现步骤摘要】
【国外来华专利技术】用于对象分割的方法、数据处理系统、计算机程序产品和计算机可读介质


[0001]本专利技术涉及一种用于图像中的对象分割的方法。本专利技术还涉及实现该方法的数据处理系统、计算机程序产品和计算机可读介质。

技术介绍

[0002]在现代计算机视觉中,图像理解通常通过诸如对象检测和语义或实例级分割(或换言之,对象分割)的特定任务来实现。在对象检测中,图像中的对象或对象实例(即,对象类别内的对象的特定样本/种类)的位置,例如在汽车应用的情况下,个体汽车、行人、交通标志被预测为围绕该对象的框(矩形)(通常被称为边界框)的像素坐标。另一方面,语义或实例分割任务旨在对整个图像进行密集像素级标记,从而为每个像素指定对象类别和/或特定实例。具体而言,图像中的实例分割的任务是用像素所属的实例的标识标签、数字或代码来标记每个像素。结果,为每个对象提供掩码,从而标记图像中与对象相关联的那些像素。与常用的边界框(或边界矩形)表示相比,这种类型的表示对在场景中可见的对象的位置、范围和形状给出更精确的描述。
[0003]在US 10,067,509B1中公开了一种用于检测遮挡对象的像素级分割方法。该方法通过针对每个像素预测a)不同目标类别(例如,汽车、行人)的语义标记以及b)指示像素是否是轮廓点的二进制标记来执行像素级实例分割。各个实例掩码可以通过将类别的像素与预测轮廓分开来恢复。
[0004]在US 10,311,312B2中扩展了上述技术方案,其中针对分别处置静态和动态情形,对两个分开的分类器进行训练。如果在多个视频帧上跟踪特定车辆是成功的,则使用动态分类器,否则将静态分类器应用在个体帧上。与上述文献中一样,相同的像素级办法被用于分割。
[0005]文献US 2018/0108137 A1也公开了实例级语义分割系统,其中通过预测每个对象周围的边界框来确定图像中的目标对象的大致位置。然后在第二步骤中,使用每个对象实例的上述边界框来预测像素级实例掩码。
[0006]像素级分割方法的主要缺点是它们的高计算需求和相关的时间消耗。在分割任务的某些方面中,识别速度是至关重要的,即在自动驾驶车的情况下。要求太多计算能力或简单地对于实时结果而言太慢的方法不适合此类应用。
[0007]加速计算的办法导致如下技术方案,其中创建较小的地图(实例地图),即具有较低分辨率,并且随后将地图缩放到图像的尺寸。
[0008]一个示例是K.He等人的“Mask R

CNN”(2017)的出版物,其公开了用于对象实例分割的两步办法。首先,应用对象建议步骤以粗略地定位图像中的一个或多个目标类别的所有实例。然后,在第二步骤中,将实例分割问题定义为像素标记任务,其中在固定大小(例如,14
×
14像素)网格上直接预测实例的分割掩码的二进制像素。这里,掩码中的二进制1表示相应对象的像素位置。然后,所预测的掩码被变换/重新缩放回到对象的正确位置和大
小。该解决方案的缺点在于,即使对于这种小网格,也使用具有至少14
×
14=122的输出尺寸的非常复杂的神经网络。这种节点量和加权因子减慢了分割,此外所生成的小图必须被缩放和插值到全图像的尺寸,这进一步降低了该方法的速度和效率。
[0009]在US 2009/0340462 A1中公开了类似的方法,其中使用神经网络来标识图像中的显著对象的像素。首先,降低图像的分辨率,并且将神经网络应用于该经缩小的图像以标识属于图像中的主要对象的像素,基于此来标识在原始的全分辨率图像中的主要对象的像素。
[0010]上述技术方案的缺点是需要进一步的步骤来确定图像中对象的轮廓或像素,这需要进一步的计算能力和时间。
[0011]另一种用于分割的办法是通过多边形来近似对象的轮廓,并且优选地通过经训练的神经网络来预测多边形而不是对象的精确轮廓。与像素级分割技术相比,这种办法显著减少了计算时间和计算需求。
[0012]在L.Castrell
ó
n等人“Annotating Object Instances with a Polygo

RNN(使用多边形RNN注释对象实例)”(IEEE计算机视觉与模式识别会议(CVPR),2017,第5230

5238页)的出版物中,作者提出了通过勾勒实例外形的多边形表示实例分割掩码的解决方案。多边形的顶点用递归神经网络依次逐一重构。来自同一研究组的这种办法的扩展是“Polygo

RNN++”(2018)。该解决方案的缺点是递归神经网络具有复杂的结构,导致较慢的计算。
[0013]在N.Benbarka等人的“FourierNet:Compact mask representation for execution using differentiable shape decoder(使用可微分形状解码器执行的紧凑掩码表示)”(arXiv:2002.02709[cs.CV],2020)的出版物中引入了另一种办法。与两阶段分割方法相比,该出版物公开了单阶段分割方法。这种办法通过一组点来表示对象的轮廓,这些点是从该轮廓的质心附近开始的假想光线与该轮廓的交点,这是该轮廓的单分量参数化。如果对于单条光线存在更多的交点,则选择离质心更远的交点。神经网络被用于预测代表该轮廓的点集的傅里叶系数(傅里叶描述符),通过该傅里叶逆变换来重构该轮廓。然而,在该方法中使用的步骤一方面限制了有待建模的形状的复杂性,并且另一方面减少了存在于被忽略的轮廓坐标中的信息。该方法的最大缺点是,具有凹形形状的对象的轮廓不可能被正确地预测和重构,只有对象的轮廓的包络可以被近似。然而,在某些应用中,需要精确的形状或轮廓重构。
[0014]鉴于已知的办法,需要一种方法,借助于该方法,可以对具有任何轮廓(包括凹形轮廓)的对象执行图像中的对象的分割。
[0015]专利技术描述
[0016]本专利技术的主要目的是提供用于图像中的对象分割的方法,其在最大可能的程度上没有现有技术办法的缺点。
[0017]本专利技术的目的是提供一种方法,借助于该方法,可以以比现有技术办法更高效的方式分割图像中的对象,以便能够实现具有任何形状或轮廓的对象的分割。因此,本专利技术的目的是提供一种能够对在图像中具有任何形状的对象的轮廓进行重构的可靠的分割方法。
[0018]本专利技术的又一目的是提供包括用于执行根据本专利技术的方法的各步骤的装置的数据处理系统。
[0019]此外,本专利技术的目的是提供一种用于在一台或多台计算机上实现根据本专利技术的方
法的步骤的非暂态计算机程序产品和一种包括指令的非暂态计算机可读介质,该指令用于在一台或多台计算机上执行该方法的步骤。
[0020]本专利技术的目的可通过如权利要求1所述的方法来达成。本专利技术的目的还可通过根据权利要求14的数据处理系统、根据权利要求15的非暂态计算机程序产品和根据权利要求16的非暂态计算机可读介质来实现。本专利技术的优选实施例在从属权利要求中定义。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于图像中的对象分割的方法,包括以下步骤:

将所述图像输入到经训练的机器学习系统,以及

重构所述对象的分割轮廓,其特征在于:

通过所述经训练的机器学习系统估计所述图像中的对象的分割轮廓的表示,其中所述分割轮廓是闭合的二维参数曲线,所述分割轮廓的每个点由两个坐标分量定义,其中这两个坐标分量都被参数化,以及

其中从所述分割轮廓的所估计表示中执行对所述对象的所述分割轮廓的重构。2.如权利要求1所述的方法,其特征在于,所述分割轮廓的所述两个坐标分量是独立参数化的。3.如权利要求1或权利要求2所述的方法,其特征在于,所述分割轮廓的所述两个坐标分量是由单个类时间参数来参数化的。4.如权利要求1到3中任一项所述的方法,其特征在于,所估计表示包括:

由所述经训练的机器学习系统估计的几何变换的至少一个参数,以及

属于由所述经训练的机器学习系统估计的所述对象的典型外观的参考轮廓的表示。5.如权利要求4所述的方法,其特征在于,所述分割轮廓的重构是通过以下来执行的:

通过将所述几何变换的所述至少一个参数与所述参考轮廓相组合来生成经调整的表示,并且从所述经调整的表示重构所述分割轮廓,或

从所述参考轮廓的表示重构所述参考轮廓,并利用所述几何变换将经重构的参考轮廓变换成所述分割轮廓。6.如权利要求4或权利要求5所述的方法,其特征在于,所述几何变换包括缩放、平移、旋转和/或镜像。7.如前述权利要求中任一项所述的方法,其特征在于,所述分割轮廓的表...

【专利技术属性】
技术研发人员:A
申请(专利权)人:智动科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1