INSEGAN:在深度图像中进行实例分割的生成方法技术

技术编号:39411344 阅读:20 留言:0更新日期:2023-11-19 16:02
用于从真实深度图像生成逼真图像的系统和方法。通过访问具有与真实深度图像的实例相同的实例的测试深度图像来训练生成对抗神经网络(GAN)。将测试深度图像输入生成器中,以生成表示物体的隐式三维模型的估计深度图像。将各个估计深度图像输入到鉴别器中以获得损失,并且输入到姿势编码器中以获得匹配损失。迭代地重复过程,直到损失被最小化至阈值,以结束训练。使用经训练的GAN姿势编码器来标识真实图像中的实例,以生成真实图像中的各个实例的姿势变换矩阵。标识深度图像中的与真实图像的实例相对应的像素,并且合并深度图像的所述像素,以形成真实深度图像的实例分割映射。以形成真实深度图像的实例分割映射。以形成真实深度图像的实例分割映射。

【技术实现步骤摘要】
【国外来华专利技术】INSEGAN:在深度图像中进行实例分割的生成方法


[0001]本公开总体上涉及生成真实深度图像的逼真深度图像,并且更特别地,涉及在使用三维生成对抗网络进行无监督的同时,自动分割深度图像中的刚性物体的多个实例。

技术介绍

[0002]实例分割在多种自主任务中是基本步骤。例如,分割场景中的物体实例(例如,汽车)是自动化驾驶的关键,物体计数对于视觉推理是必需的,并且标识医学图像中的器官的实例对于自动化诊断是重要的。
[0003]实例分割的常规方法基于物体识别模型和语义分割模型。假设这些常规模型能够访问由物体的边界框或者其类分割掩码组成的经注释的训练集,以对深度学习模型进行训练。然而,这样的方法在难以获得注释时是无法归纳的,或者这样的方法对于计算机视觉行业活动场所的参与者来说计算上过于昂贵。例如,被设计成拾取任意物体的工业机器人、或者待处理食品项目逐周改变的食品工厂中的机器人助理,因此经常训练用于可靠地预测实例的神经网络而需要大的经注释的训练集而导致获取起来可能是昂贵的,或者针对物体的一种形状训练的模型可能不被用于检测其它形状,从而使经训练的本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于从真实深度图像生成逼真图像的系统,所述系统包括:处理器,所述处理器连接至收发器和数据存储装置,所述数据存储装置存储包括经训练的生成对抗神经网络GAN的计算机可读指令,所述经训练的GAN具有经训练的生成器、经训练的鉴别器和经训练的姿势编码器,所述计算机可读指令在由所述处理器执行时,使所述处理器:经由所述收发器接收具有物体的实例的真实深度图像;同时将各个估计深度图像输入到所述鉴别器和所述姿势编码器中,所述鉴别器对照所述真实深度图像来鉴别各个估计深度图像,以获得鉴别器损失,并且所述姿势编码器生成与一组经采样的变换矩阵相匹配的一组姿势变换矩阵,以获得匹配损失;对所述各个估计深度图像迭代地重复过程,直到所述鉴别器损失和所述匹配损失被最小化至阈值,以结束训练时段;通过将所述真实深度图像输入到所述经训练的GAN的所述姿势编码器中来标识所述真实深度图像中的所述实例,以为所述真实深度图像中的各个实例生成姿势变换矩阵,其中,每个姿势变换矩阵被用于为各个实例生成深度图像;以及通过基于预定像素深度阈值来标识各个深度图像中的一组像素,从而标识所述深度图像中的与所述真实深度图像中的所述实例相对应的像素,并且合并所述深度图像的所述一组像素,以形成所述真实深度图像的实例分割映射。2.根据权利要求1所述的系统,其中,所述经训练的鉴别器被配置成学习(a)对经渲染的实例的数量是否匹配所述真实深度图像的数据分布中的实例的数量进行计数;(b)提供所述估计深度图像中的经渲染的实例在各种视点下看起来与真实图像的所述数据分布中的所述实例相同;以及(c)所述估计深度图像的布局是否与所述真实深度图像中的所述实例的组成相似。3.根据权利要求1所述的系统,其中,所述估计深度图像被输入到所述经训练的GAN中,并且通过使用实例编码器对所述实例进行编码来将所述估计深度图像分割成其实例以产生潜在向量,各个潜在向量然后被独立地平移成单个实例深度图像,随后所述单个实例深度图像在深度上被阈值化以找到与所述实例相关联的像素,所述像素被合并以形成所述单个实例段,这些单个实例段被合并以生成所述真实深度图像输入的所述实例分割。4.根据权利要求1所述的系统,其中,所述生成器使用来自训练深度图像的噪声向量,以生成所述估计深度图像,并且所述编码器被配置成输入所述估计深度图像,并且作为输出,在训练时间重建所述噪声向量中的各个噪声向量。5.根据权利要求1所述的系统,所述系统还包括:所述编码器的各个噪声向量输出与由所述生成器使用的所述噪声向量相匹配,使得所述匹配使用最优传输损失,其中,所述编码器的输出噪声向量被用于生成与由所述生成器使用所述噪声向量生成的中间特征相匹配的中间特征,使得所述匹配使用欧几里得损失,其中,所述编码器的所述噪声向量在所述生成器中被重新使用,以生成新的估计深度图像,所述噪声向量被配置成与先前生成的估计深度图像相匹配,使得所述匹配使用L1损失,并且其中,所述编码器经由在将所述最优传输损失、所述欧几里得损失、以及所述L1损失相
加而计算的损失上进行反向传播来训练。6.根据权利要求1所述的系统,其中,所述真实深度图像是从包括以下项中的一个的至少一个传感器获得的:(a)飞行时间深度摄像机,(b)结构光深度摄像机,(c)作为至少两个红外摄像机、红外投影仪或彩色摄像机中的一者的立体深度摄像机。7.根据权利要求6所述的系统,其中,所述至少一个传感器被定位成感测一个或更多个箱中的物体。8.根据权利要求1所述的系统,其中,所述物体是制造套件或待装运物体的组件,并且所述物体由标识符标识,当识别到所述物体时,所述处理器访问所存储的指令,所述指令在由所述处理器执行时,使所述处理器:(a)基于所述标识符来检索被指派给第一顾客的所述制造套件或待装运物体的预期组件的列表;(b)将所述列表与顾客数据库进行比较,以验证所述预期组件的列表要在一个时段内被交付给所述第一顾客;以及(c)在确认交付时段时,标识所述预期组件的列表与所述物体的所述第一顾客数据库之间的差异。9.根据权利要求1所述的系统,其中,所述生成器被配置成基于真实深度图像来生成所述估计深度图像,并且被配置成一旦所述训练时段完成就生成目标分割和目标属性。10.根据权利要求9所述的系统,其中,所述估计深度图像是所述真实深度图像的平移版本。11.根据权利要求9所述的系统,其中,所述生成器还被配置成基于所述目标分割、所述目标属性和潜在向量来生成所述估计深度图像。12.根据权利要求1所述的系统,所述系统还包括:登记系统,所述登记系统被配置成将顾客的身份与包含物体的一个或更多个箱相关联,使得所述登记系统包括射频标识RFID收发器、WiFi收发器、读取装置、无线收发器装置或者某一其它收发器装置或另一读取装置中的一个或组合。13.根据权利要求1所述的系统,其中,在训练时段期间,包括所述经训练的生成器、经训练的鉴别器以及经训练的姿势编码器的所述GAN已经通过从所述数据存储装置访问训练深度图像进行了训练,训练图像具有与所述真实深度图像的所述实例相同的实例,并且将所述训练深度图像输入所述生成器中,以生成表示所述物体的隐式三维模型的估计深度图像。14.一种对由3D物体的相同实例组成的深度图像进行物体

实例分割的系统,所述系统包括:处理器和存储器,所述存储器上存储有计算机代码指令,所述处理器和所述存储器利用所述计算机代码指令被配置成使所述系统:使用被实现为参数张量的隐式模板来捕获所述3D物体的潜在3D表示;使用被实现为第一神经网络的姿势编码器来从噪声向量生成3D姿势变换矩阵;使用被实现为第二神经网络的生成器来生成伪深度图像,所述第二神经网络被配置成在所述隐式模板上应用多个3D变换矩阵,所述多个3D变换矩阵是由所述第一神经网络使用多个噪声向量来生成的;使用被实现为第三神经网络的鉴别器来区分真实深度图像与所述伪深度图像,并且根据该区分来输出鉴别结果;使用被实现为第四神经网络的实例编码器来将所述伪深度图像分解成潜在向量,所述
实例编码器输出与在所述姿势编码器中使用的一组噪声向量相匹配的一组潜在向量;以及在训练时段期间执行所述隐式模板、所述姿势编码器、所述生成器、所述鉴别器、以及所述实例编码器的迭代操作,使所述鉴别器和所述生成器以彼此对抗的关系进行训练,并且使所述生成器、所述隐式模板、所述姿势编码器、以及所述实例编码器以彼此协作的关系进行训练,并且其中,所述实例编码器在所述训练时段结束时使其第四神经网络进行训练,以生成与和所述生成的深度图像中的所述实例的所述3D姿势相对应的所述噪声向量相匹配的潜在向量,所述潜在向量具有比在所述训练时段开始时增加的量准确度,其中,在所述训练时段之后,给定包括所述3D物体的多个实例的真实深度图像,所述实例编码器生成各个3D物体实例的潜在向量,所述潜在向量由所述姿势编码...

【专利技术属性】
技术研发人员:A
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1