基于自动编码器和聚类的异常检测制造技术

技术编号:36068319 阅读:12 留言:0更新日期:2022-12-24 10:36
本发明专利技术公开了数字图像中的对象的异常检测方法,其中,将该对象的图像通过自动编码器进行编码和解码,然后在对象的输入图像与该对象的重建图像之间计算逐像素差值。逐像素差值高于阈值的像素被认为是相异像素,并且测试相异像素簇的存在。相异像素簇被认为是表示异常。常。常。

【技术实现步骤摘要】
【国外来华专利技术】基于自动编码器和聚类的异常检测


[0001]本专利技术涉及图像中的异常检测。更具体地,本专利技术涉及数字图像中的异常(例如,对象的异常)的检测和定位。

技术介绍

[0002]正常数据与异常数据之间的区别是具有许多应用的不断增长的搜索领域。
[0003]其中之一是异常检测和定位。其目的是自动检测图像是“正常”还是“异常”,并且当检测到异常时,对该异常进行定位。其具体应用是在生产线中检测正常产品或异常产品。这可以通过拍摄各个产品的照片并自动检测该照片是对应于正常产品还是对应于异常产品来完成。例如,异常检测和定位可以被用于工业中的质量控制。这种质量控制包括在生产线的输出处拍摄产品的图像,然后根据数字图像自动验证产品中是否存在异常以及产品位于何处。这代表了对工业的非常显著的改进,因为人工检查是麻烦且昂贵的。然而,自动异常检测需要既精确又可靠,以满足工业标准并且高效地取代员工的视觉检查。
[0004]对什么是“正常”和什么是“异常”的自动检测是众所周知的难题,已经采用不同的方式来解决该难题,这通常依赖于学习和生成一个或更多个数据模型。
[0005]解决这个问题的第一种方法是执行监督学习。监督学习包括来自被标记的输入数据的学习模型:各个学习样本皆与指示该样本是正常还是异常的标签相关联。异常样本也可以与指示异常类型的标签相关联。一旦对该模型进行了训练,就可以使用它来将新样本分类为正常或异常。这种方法的问题是所述模型只能学习已经遇到的异常。因此,它们存在着有异常但其异常先前未被学习的样本将被分类为正常的很大风险。
[0006]另一方面,无监督学习可以检测异常而不需要被标记的异常学习数据。为了这样做,一些解决方案使用表示正常数据的样本集来学习数据的生成模型。这种模型的目的是根据噪声或者根据输入样本的压缩表示来生成很可能遵循无异常数据分布的输出样本。在图像处理中,典型值可以是从64维压缩数据空间产生256*256像素图像。这种模型主要有生成对抗网络(GAN)、变分自动编码器(VAE)、PixelCNN、以及这些模型的混合。给定样本,为了检测异常,现有的解决方案将该样本编码到其压缩数据空间中,然后对压缩表示进行解码,以获得称为“重建”的新的生成的样本。它们还允许通过将重建与输入样本进行比较来定位异常(例如,逐像素地),或者使用更多的全局滤波器,并且考虑样本中的与重建不同的区域是异常的定位。
[0007]通常,图像中的现有技术异常检测技术不能以像素精度来定位异常。而且,它们还缺乏检测先前未学习的异常的能力,并且需要用户在数据注释方面付出巨大努力。
[0008]Bergmann,P.,S.,Fauser,M.,Sattlegger,D.,&Steger,C.(2018).Improving unsupervised defect segmentation by applying structural similarity to autoencoders.arXiv preprint arXiv:1807.02011提出了一种用于执行异常的检测和定位的方法。Bergmann等人的方法使用自动编码器,其中,编码和解码神经网络都是CNN(卷积神经网络),并且对于各个像素,损失被计算为SSIM(结构相似性)。Bergmann的异常检测
要求多个相邻像素的SSIM损失高于阈值。Bergmann具有提供不需要用户进行系统数据注释的异常检测和定位方法的优点。
[0009]然而,Bergmann的误差检测具有主要缺点:通常,自动编码器检测异常的边缘处的相异性。结果,异常像素通常彼此不相邻。
[0010]因此,需要一种用于图像中的对象的自动异常检测和定位方法,其需要用户进行有限水平的注释和监督,同时允许对误差的可靠的逐像素定位。

技术实现思路

[0011]为此,本专利技术公开了一种计算机实现方法,该计算机实现方法包括以下步骤:获得由数字摄像机拍摄的对象的输入数字图像;使用自动编码器来将输入数字图像编码成压缩图像,并且将该压缩图像解码成重建图像;计算重建图像与输入数字图像之间的逐像素相异性;检测具有高于相异性阈值的逐像素相异性的像素作为相异像素;检测至少一个相异像素簇的存在或不存在;如果检测到相异像素簇的存在,则计算所述相异像素簇的凸包络,所述凸包络表示异常。
[0012]有利地,所述计算机实现方法还包括以下步骤:使用有监督多类图像分类机器学习引擎,将输入数字图像在所述凸包络内的像素分类成异常类。
[0013]有利地,所述计算机实现方法还包括以下步骤:将输入图像在凸包络内的像素用于训练有监督多类图像分类机器学习引擎以检测异常。
[0014]有利地,如果检测到相异像素簇,则所述计算机实现方法还包括以下步骤:向用户显示输入图像在凸包络内的像素;从用户接收异常标签;将输入图像凸包络内的所述像素以及所述标签用于训练所述有监督多类图像分类机器学习引擎以检测异常。
[0015]有利地,所述计算机实现方法还包括以下步骤:在所述输入图像中并且在解压缩图像中,向所述用户同时显示所述凸包络内的所述像素。
[0016]有利地,像素簇是由以下项来限定的:相异像素的连通图,这些相异像素中的各个相异像素皆位于等于或小于最大阈值距离的距离处,该最大阈值距离是等于或大于最小像素阈值的多个相异像素的最大距离阈值,所述连通图的边缘等于最大阈值距离;不属于所述连通图并且位于等于或小于属于所述连通图的相异像素的所述最大阈值距离的距离处的相异像素。
[0017]有利地,所述计算机实现方法包括以下步骤:计算输入数字图像中的对象的分割掩模,并且其中,所述计算逐像素相异性的步骤仅针对属于分割掩模的像素来执行。
[0018]有利地,计算分割掩模的步骤包括:使用分割自动编码器来生成重建图像的阿尔法(alpha)通道,所述阿尔法通道表示分割掩模,并且其中,所述分割自动编码器已经在包括以下项的训练阶段期间被训练:对于训练集中的对象类的各个参考实例对象,获得实例对象的数字图像、以及限定该实例对象的分割掩模的参考阿尔法通道;使用所述训练集对自动编码器进行训练,以最小化损失函数,对于参考实例对象来说,该损失函数包括自动编码器的输出端处的解压缩向量的阿尔法通道的像素与限定参考实例对象的分割掩模的参考阿尔法通道的像素之间的差值。
[0019]有利地,损失函数是分别表示以下项的三个项的加权和:Kullbak

Leibler散度;输入图像的像素与重建图像的像素之间的差值;自动编码器的输出端的解压缩向量的阿尔
法通道的像素与限定参考实例对象的分割掩模的参考阿尔法通道的像素之间的所述差值。
[0020]有利地,输入图像的像素与重建图像的像素之间的所述差值乘以所述参考阿尔法通道。
[0021]有利地,所述分割自动编码器是用于将输入数字图像编码成压缩图像并且将压缩图像解码成重建图像的自动编码器。
[0022]有利地,在监督学习阶段期间已经确定了至少一个参数值,并且所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现方法(400a、400b、400c、400d),所述计算机实现方法包括以下步骤:

获得(410)由数字摄像机拍摄的对象的输入数字图像;

使用自动编码器(320)将所述输入数字图像编码(420)成压缩图像,并且将所述压缩图像解码(421)成重建图像;

计算(430)所述重建图像与所述输入数字图像之间的逐像素相异性;

将具有高于相异性阈值的逐像素相异性的像素检测(440)作为相异像素;

检测(450)至少一个相异像素簇的存在或不存在;

如果检测到相异像素簇的存在,则计算(460)所述相异像素簇的凸包络,所述凸包络表示异常。2.根据权利要求1所述的计算机实现方法(400c),所述计算机实现方法还包括以下步骤:使用(480c)有监督多类图像分类机器学习引擎,来将所述输入数字图像在所述凸包络(744)内的像素分类成异常类。3.根据权利要求1所述的计算机实现方法(400d),所述计算机实现方法还包括以下步骤:使用所述输入图像在所述凸包络(744)内的所述像素来训练有监督多类图像分类机器学习引擎以检测异常。4.根据权利要求3所述的计算机实现方法(400d),如果检测到相异像素簇,则所述计算机实现方法还包括以下步骤:

向用户显示(490d)所述输入图像在所述凸包络(744)内的所述像素;

从所述用户接收(491d)异常标签;

使用(492d)所述输入图像在所述凸包络内的所述像素以及所述标签来训练所述有监督多类图像分类机器学习引擎以检测异常。5.根据权利要求4所述的计算机实现方法,所述计算机实现方法还包括以下步骤:在所述输入图像中并且在解压缩图像中,向所述用户同时显示所述凸包络内的所述像素。6.根据权利要求1至5中的一项所述的计算机实现方法,其中,像素簇是由以下来限定的:

相异像素(610、611、612、613、614、以及615)的连通图,这些相异像素中的各个相异像素皆位于等于或小于最大阈值距离(ε)的距离处,所述最大阈值距离是等于或小于最小像素阈值的多个相异像素的最大阈值距离,所述连通图的边缘等于所述最大阈值距离;

相异像素(626、627),所述相异像素不属于所述连通图并且位于等于或小于属于所述连通图的相异像素的所述最大阈值距离(ε)的距离处。7.根据权利要求1至6中的一项所述的计算机实现方法(400b、400c、400d),所述计算机实现方法包括以下步骤:计算所述输入数字图像中的对象的分割掩模(470b),并且其中,计算(430)逐像素相异性的所述步骤是仅针对属于所述分割掩模的像素来执行的。8.根据权利要求7所述的计算机实现方法,其中,计算所述分割掩模的所述步骤包括:使用分割自动编码器来生成所述重建图像的阿尔法通道,所述阿尔法通道表示所述分割掩模,并且其中,所述分割自动编码器已经在包括以下的训练阶段期间进行了训练:

对于训练集中的对象类的各个参考实例对象,获得所述实例对象的数字图像、以及限定所述实例对象的分割掩模的参考阿尔法通道;

使用所述训练集对所述自动编码器进行训练,以最小化损失函数,所述损失函数对于
参考实例对象来说包括这样的差值,即,所述自动编码器的输出端处的解压缩向量的阿尔法通道的像素与限定所述参考实例对象的所述分割掩模的所述参考阿尔法通道的像素之间的差值。9.根据权利要求8所述的计算机实现方法,其中,所述损失函数是分别表示以下内容的三项的加权和:

Kullbak

Leibler(KL)散度;

所述输入图像的像素与所述重建图像的像素之间的差值;

所述自动编码器的输出端处的所述解压缩向量的所述阿尔法通道的像素与限定所述参考实例对象的所述分割掩模的所述参考阿尔法通道的像素之间...

【专利技术属性】
技术研发人员:G
申请(专利权)人:阿诺特尔布莱恩公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1