在阿尔法通道中的基于自动编码器的分割掩模生成制造技术

技术编号:36582816 阅读:13 留言:0更新日期:2023-02-04 17:43
本发明专利技术公开了一种能够为数字图像中的对象生成分割掩模的设备。为此,该设备包括处理逻辑单元,该处理逻辑单元被配置为使用先前训练的自动编码器对图像进行编码,并对图像进行解码,从而生成附加阿尔法通道,所述附加阿尔法通道定义了分割掩模。法通道定义了分割掩模。法通道定义了分割掩模。

【技术实现步骤摘要】
【国外来华专利技术】在阿尔法通道中的基于自动编码器的分割掩模生成


[0001]本专利技术涉及在数字图像中生成对象的分割掩模(segmentation mask)的领域。更具体地说,涉及在图像中生成可以表示正常对象或包括缺陷的对象的分割掩模。

技术介绍

[0002]如今,数字图像是越来越多的应用的基础。数字图像可以从大量源中拍摄,并表示各种事物,诸如,风景、对象或人。当对象在图像上被表示为在背景后面时,将该对象从背景中分离出来对许多应用很有用,以便仅对该对象执行图像分析而不受背景的影响。例如,在工业中与质量控制有关的应用就是这种情况,其中对象中是否存在缺陷、以及对缺陷的表征与定位是基于对象的图像自动执行的。在这种情况下,如果首先将对象从背景中分离出来,使得检测仅对该对象执行,而不受背景内容的影响,那么对缺陷的检测效率会更高。对象与背景之间的分离通常是通过定义分割掩模来完成的。分割掩模是指示图像中属于目标对象的像素和不属于该对象的像素(例如,背景像素)的掩模。
[0003]通常,自动分割是通过以下步骤执行的:训练有监督机器学习引擎,以使用包括一种类型的对象的训练集和对应的掩模来生成这种类型的对象的分割掩模。在训练阶段结束时,该有监督机器学习引擎必须能够从新图像中自动生成这种对象的分割掩模,即,当提供了未知图像时,必须能够将目标类型的对象从图像的背景中分离。因此,自动生成分割掩模的一般挑战包括将来自给定类型的对象从图像的背景中正确分离。然而,出于多种原因,这可能是一项艰巨的任务。首先,同一类型的对象可能是在不同的条件下(光线、取向、变
……
)被拍摄的,因此会以不同的大小、形状或颜色显示在图像上。变化的背景也可能使分割变得困难。
[0004]现有技术以不同的方式解决这些挑战。第一种方法包括在详细控制的状况下拍摄对象的图像。例如,可以在对象位于具有限定光线的黑盒中时拍摄对象的图像,使得背景由黑色像素定义。在该解决方案允许对象与背景之间的有效分离的情况下,其成本高、难以管理并且需要大量空间。因此,它不适用于需要快速分析大量产品的工业应用,诸如,对生产线中的缺陷进行检测。
[0005]通常,生成分割掩模的经典算法(诸如,由McLachlan,G.J.,&Basford,K.E.(1988).Mixture models:Inference and applications to clustering(混合模型:对集群的推断和应用)(Vol.38).New York:M.Dekker公开的那些经典算法)包括将每个像素都分类为前景像素或背景像素。这种算法最流行的解决方案之一是被称为“Grabcut”且由Rother,C.,Kolmogorov,V.,&Blake,A.(2004)."GrabCut"interactive foreground extraction using iterated graph cuts(使用迭代图割的互动前景提取).ACM transactions on graphics(TOG),23(3),309

314公开的解决方案。然而,这些算法很难识别复杂的背景,并且只有在背景与要分割的对象有很大差异时才能表现良好。此外,分割解决方案通常需要由专家进行细化,其干预时间长且成本高。
[0006]另一种选择包括通过假设变换仅是由于摄像机的视角或变焦的差异来标识已知
形状的变换。被称为“SIFT”(尺度不变特征变换)的这种解决方案是例如由Lowe,D.G.(1999,September).Object recognition from local scale

invariant features(从本地尺度不变特征的对象识别).In Proceedings of the seventh IEEE international conference on computer vision(Vol.2,pp.1150

1157).Ieee来描述的。然而,这些方法不能在光照改变或要检测的对象的变化/变形的情况下正确分割对象。
[0007]其它方法依赖于无监督深度学习来分割场景。这例如是Eslami,S.A.,Heess,N.,Weber,T.,Tassa,Y.,Szepesvari,D.,&Hinton,G.E.(2016).Attend,infer,repeat:Fast scene understanding with generative models(利用生成模型的快速场景理解).In Advances in Neural Information Processing Systems(pp.3225

3233)公开的“Attend Infer Repeat(参加推断重复)”(AIR)的情况,或是Burgess,C.P.,Matthey,L.,Watters,N.,Kabra,R.,Higgins,I.,Botvinick,M.,&Lerchner,A.(2019).Monet:Unsupervised scene decomposition and representation(无监督场景分解和表示).arXiv preprint arXiv:1901.11390公开的“MONet”的情况。然而,这些方法存在训练时间很长的缺点,并且对与训练集的对象不同的对象(例如,生产线的异常对象)进行检测的能力非常有限。
[0008]实例分割的其它解决方案依赖于有监督深度学习。最著名的是He,K.,Gkioxari,G.,Doll
á
r,P.,&Girshick,R.(2017).Mask r

cnn.In Proceedings of the IEEE international conference on computer vision(pp.2961

2969)公开的“Mask R

CNN(掩模R

CNN)”和Bolya,D.,Zhou,C.,Xiao,F.,&Lee,Y.J.(2019).YOLACT:real

time instance segmentation(实时实例分割).In Proceedings of the IEEE International Conference on Computer Vision(pp.9157

9166)公开的“Yolact”。这些解决方案提供了对任何类型的背景、部分遮挡和对象变形都具有鲁棒性的优点。这些属性对于在各种情况下都能够对对象类型的实例进行分割是必不可少的。
[0009]然而,由于这些解决方案中的每一个解决方案都被训练为提取被认为属于已定义对象类的实例的像素,因此当面对呈现缺陷的类的实例的图像时,它们具有以下缺点:从分割掩模中自然地排本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练至少一个自动编码器(420)的计算机实现的方法(500),所述方法包括:

对于训练集中的对象类的各个参考实例对象,获得(510)所述参考实例对象的数字图像和定义所述参考实例对象的分割掩模的参考阿尔法通道;以及

使用所述训练集训练(520)所述自动编码器以使损失函数最小化,所述损失函数包括针对参考实例对象的在所述自动编码器的输出处的解压缩向量的像素的阿尔法通道与定义所述参考实例对象的分割掩模的所述参考阿尔法通道之间的差值;其中,所述损失函数是三个项的加权和,所述三个项分别表示:

Kullbak

Leibler(KL)散度;

输入向量的像素与解压缩向量的像素之间的差值;

在所述自动编码器的所述输出处的所述解压缩向量的所述阿尔法通道的像素与定义所述参考实例对象的所述分割掩模的所述参考阿尔法通道的像素之间的所述差值。2.根据权利要求1所述的计算机实现的方法,其中,所述输入向量的像素与所述解压缩向量的像素之间的所述差值与所述参考阿尔法通道相乘。3.根据权利要求1至2中的一项所述的计算机实现的方法,其中,所述训练包括在所述训练集上的多次训练迭代,并且表示所述解压缩向量的所述阿尔法通道的像素与所述参考阿尔法通道的像素之间的差值的所述项的权重在连续迭代中减小。4.根据权利要求1至3中的一项所述的计算机实现的方法,所述方法包括:

按比例缩小所述训练集的每个数字图像和每个对应的参考阿尔法通道,以针对所述训练集的每个参考实例对象,获得为多个相应分辨率的多个重新缩放的数字图像和多个重新缩放的参考阿尔法通道;

分别使用为所述多个相应分辨率的所述重新缩放的数字图像和所述重新缩放的参考阿尔法通道来训练多个自动编码器。5.根据权利要求1至4中的一项所述的计算机实现的方法,其中,所述自动编码器是变分自动编码器。6.一种用于训练至少一个自动编码器的设备,所述设备包括至少一个处理逻辑单元,所述至少一个处理逻辑单元被配置用于:

对于训练集中的对象类的各个参考实例对象,获得(510)所述参考实例对象的数字图像和定义所述参考实例对象的分割掩模的参考阿尔法通道;

使用所述训练集训练(520)所述自动编码器以使损失函数最小化,所述损失函数包括针对参考实例对象的在所述自动编码器的输出处的解压缩向量的像素的阿尔法通道与定义所述参考实例对象的所述分割掩模的所述参考阿尔法通道之间的差值,其中,所述损失函数是三个项的加权和,所述三个项分别表示:

Kullbak

Leibler(KL)散度;

输入向量的像素与解压缩向量的像素之间的差值;

在所述自动编码器的所述输出处的所述解压缩向量的所述阿尔法通道的像素与定义所述参考实例对象的所述分割掩模的所述参考阿尔法通道的像素之间的所述差值。7.一种用于训练至少一个自动编码器的计算机...

【专利技术属性】
技术研发人员:G
申请(专利权)人:阿诺特尔布莱恩公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1