当前位置: 首页 > 专利查询>辉达公司专利>正文

使用神经网络翻译模型改进图像分割制造技术

技术编号:25891188 阅读:20 留言:0更新日期:2020-10-09 23:33
本发明专利技术公开了使用神经网络翻译模型改进图像分割。神经网络包括编码器、公共解码器和残差解码器。编码器将输入图像编码到潜在空间中。潜在空间使独特特征与其他公共特征分离。公共解码器对驻留在潜在空间中的公共特征进行解码,以生成缺少独特特征的翻译图像。残差解码器对驻留在潜在空间中的独特特征进行解码,以生成与独特特征相对应的图像增量。神经网络将翻译图像与图像增量相组合,以生成可包括公共特征和独特特征两者的组合图像。组合图像可用于驱动自动编码。一旦训练完成,可以修改残差解码器以生成分割掩码,这些分割掩码指示独特特征所驻留在的给定输入图像的任何区域。

【技术实现步骤摘要】
使用神经网络翻译模型改进图像分割
技术介绍
在传统的图像分割方法中,神经网络被训练以基于包括一组标记图像的训练数据来识别图像的特定特征。例如,神经网络可以被训练以基于训练数据识别图像内的汽车实例,所述训练数据包含汽车图像和指示汽车所驻留在的那些图像的区域的标签。此方法的一个缺点是训练数据需要由人类手动生成。特别地,人类必须对训练数据中的每个图像进行视觉评估,然后生成指示感兴趣特征在那些图像中的位置的一个或更多个标签。这个过程可能非常耗时。此外,某些类型的训练数据(例如与医学成像相关联的训练数据)只能由可能不容易找到的专家生成。附图说明为了可以详细理解各个实施例的上述特征的方式,可以通过参考各个实施例来对以上简要概述的专利技术构思进行更具体的描述,在附图中示出了其中一些实施例。然而,应注意,附图仅示出了本专利技术构思的典型实施例,因此不应以任何方式被认为是对范围的限制,并且还有其他等效的实施例。图1示出了被配置为实现各个实施例的一个或更多个方面的系统。图2是根据各个实施例的图1的神经网络的更详细的图示。图3示出了根据各个实施例的可以如何训练图1的神经网络。图4示出了根据各个实施例的图1的神经网络如何生成分割掩码。图5示出了根据各个实施例的图1的神经网络如何增强翻译图像的空间细节。图6是根据各个实施例的用于翻译图像以生成分割掩码的方法步骤的流程图。图7是示出被配置为实现各个实施例的一个或更多个方面的计算机系统的框图。图8是根据各个实施例的包括在图7的并行处理子系统中的并行处理单元(PPU)的框图。图9是根据各个实施例的包括在图8的并行处理单元(PPU)中的通用处理集群(GPC)的框图。具体实施方式在以下描述中,阐述了许多具体细节以提供对各种实施例的更透彻的理解。然而,对于本领域的技术人员将显而易见的是,可以在没有一个或更多个这些具体细节的情况下实践本专利技术构思。如上所述,用于图像分割的传统方法涉及基于手动标记的训练数据来训练神经网络。生成这些训练数据可能非常耗时。此外,某些类型的训练数据只能由专家生成,其可能不容易手动标记图像。为了解决这个问题,各种实施例包括神经网络,其被训练以将可以包括感兴趣特征的输入图像翻译(translate)成不包括感兴趣特征的翻译图像(translatedimage)。可以将输入图像与翻译图像进行比较,以揭示输入图像中感兴趣特征所在的区域。在一个实施例中,基于弱标记的训练数据来训练神经网络。弱标记的训练数据包括包含感兴趣特征的第一组图像和不包含感兴趣特征的第二组图像。弱标记的训练数据还包括每个图像的标签,其指示感兴趣特征的存在或不存在。感兴趣特征对于第一组图像是唯一的,因此在本文中可以被称为“独特特征(uniquefeature)”。两组图像还包括两组图像中都包含的各种其他特征。这些特征在本文中可以被称为“公共特征”。在一个实施例中,神经网络包括编码器、公共解码器和残差解码器。基于弱标记的训练数据中包含的输入图像和相应的标记来训练编码器和解码器。编码器将输入图像编码到潜在空间中。潜在空间使输入图像的独特特征与输入图像的公共特征分离(disentangle)。公共解码器对驻留在潜在空间中的公共特征进行解码,以生成缺少独特特征的翻译图像。残差解码器对驻留在潜在空间中的独特特征进行解码,以生成与独特特征相对应的图像增量。神经网络将翻译图像与图像增量相组合,以生成可包含公共特征和独特特征两者的组合图像。组合图像可用于通过自动编码来驱动神经网络的训练。一旦训练完成,可以修改残差解码器以生成分割掩码,而不是图像增量。给定的分割掩码指示给定输入图像中独特特征所在的任何区域。相对于现有技术,所公开的技术的至少一个技术优势在于,可以仅基于弱标记的训练数据来精确地分割图像。因此,可以在图像内容易地识别出感兴趣特征,而无需执行复杂的手动过程来生成训练数据。相对于现有技术,所公开的技术的另一技术优势在于,与传统方法相比,需要较少的参考分割来训练神经网络,从而简化并加快了训练过程。这些技术优势代表了相对于现有技术方法的多项技术进步。系统概述图1示出了被配置为实现各个实施例的一个或更多个方面的系统100。如图所示,在一个实施例中,系统100包括训练引擎110和神经网络120。在一个实施例中,训练引擎110被配置为基于弱标记的训练数据112训练神经网络120,以生成翻译图像122(0)和122(1)。弱标记的训练数据112包括图像114(0)和图像114(1)。图像114(0)包括感兴趣特征,并且图像114(1)不包括感兴趣特征。图像114(0)和114(1)被标记以指示感兴趣特征的存在或不存在。图像114(0)被标记为“存在”(P)以指示该特征存在于图像114(0)中。图像114(1)被标记为“不存在”(A)以指示图像114(1)中不存在该特征。感兴趣特征在本文中可以被称为“独特特征”,因为该特征唯一地出现在图像114(0)中。图像114(0)和114(1)共同共享某些特征。这些特征在本文中被称为“公共特征”。在一个实施例中,在图1所示的示例中,图像114(0)和114(1)是大脑的横截面图像。图像114(0)和114(1)都包括通常与大脑相关联的特征,包括例如大脑半球、裂隙和脑回。这些特征(用“C”指示)对于图像114(0)和114(1)两者是公共的。另外,图像114(0)包括异常,例如脑肿瘤。该特征(用“U”指示)唯一地出现在图像114(0)中。尽管为了清楚起见在图1中示出了公共特征和独特特征,但是在弱标记的训练数据112中未明确标记这些特征。如上所述,弱标记的训练数据112指示图像114(0)和114(1)内存在或不存在独特特征。在一个实施例中,训练引擎110基于弱标记的训练数据112训练神经网络120以将图像114(0)和114(1)编码到潜在空间中。潜在空间将独特特征和公共特征分离。训练引擎110还训练神经网络120以解码来自潜在空间的公共特征,以生成缺乏独特特征的翻译图像122(0)。训练引擎110进一步训练神经网络122(1)以解码来自潜在空间的独特特征(结合公共特征)以生成缺乏公共特征的翻译图像122(1)。在一些实施例中,翻译图像122(1)可以表示为图像差异。在一个实施例中,在训练期间,翻译图像122(0)和122(1)可以被组合以重建图像114(0)和114(1)。训练引擎114然后可以基于那些重建图像执行自动编码过程来训练神经网络120。一旦以这种方式训练了神经网络120,神经网络120的修改版本可以生成分割掩码而不是生成翻译图像。分割掩码指示图像中独特特征所在的区域。下面还将结合图2-图6更详细地描述上述各种技术。翻译模型图2是根据各个实施例的图1的神经网络的更详细的图示。如图所示,在一个实施例中,神经网络120包括编码器200、公共解码器210和残差解码器220。在一个实施例中,编码器200是多层卷积神经网络,其将输入图像编码到潜在本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:/n生成输入图像的特征表示,其中所述输入图像包括与第一特征类型相关联的第一特征和与第二特征类型相关联的一个或更多个附加特征;/n使用与所述第一特征类型相关联的第一解码器对所述特征表示进行解码以生成第一图像,其包括所述第一特征但不包括所述一个或更多个附加特征;/n使用与所述第二特征类型相关联的第二解码器对所述特征表示进行解码以生成第二图像,其包括所述一个或更多个附加特征但不包括所述第一特征;/n组合所述第一图像和所述第二图像以生成第三图像;/n比较所述输入图像和所述第三图像以确定所述输入图像和所述第三图像之间的差异;以及/n基于所述输入图像和所述第三图像之间的所述差异来更新所述第一解码器,以使所述第一解码器能够生成分割掩码,其识别给定图像中与所述第一特征类型相关联的给定特征的位置。/n

【技术特征摘要】
20190327 US 16/367,0771.一种计算机实现的方法,包括:
生成输入图像的特征表示,其中所述输入图像包括与第一特征类型相关联的第一特征和与第二特征类型相关联的一个或更多个附加特征;
使用与所述第一特征类型相关联的第一解码器对所述特征表示进行解码以生成第一图像,其包括所述第一特征但不包括所述一个或更多个附加特征;
使用与所述第二特征类型相关联的第二解码器对所述特征表示进行解码以生成第二图像,其包括所述一个或更多个附加特征但不包括所述第一特征;
组合所述第一图像和所述第二图像以生成第三图像;
比较所述输入图像和所述第三图像以确定所述输入图像和所述第三图像之间的差异;以及
基于所述输入图像和所述第三图像之间的所述差异来更新所述第一解码器,以使所述第一解码器能够生成分割掩码,其识别给定图像中与所述第一特征类型相关联的给定特征的位置。


2.根据权利要求1所述的计算机实现的方法,其中生成所述输入图像的所述特征表示包括:使用第一编码器将所述输入图像编码到潜在空间。


3.根据权利要求2所述的计算机实现的方法,其中所述第一特征类型对应于所述潜在空间的第一区域,所述第二特征类型对应于所述潜在空间的第二区域。


4.根据权利要求2所述的计算机实现的方法,还包括基于所述输入图像和所述第三图像之间的所述差异来更新所述第一编码器,以使所述第一编码器能够将所述第一特征编码到所述潜在空间的第一区域,并将所述一个或更多个附加特征编码到所述潜在空间的第二区域。


5.根据权利要求2所述的计算机实现的方法,其中所述第一编码器经由一组长跳连接耦合到所述第一解码器,所述长跳连接压缩和/或串接所述特征表示的至少部分以输入到所述第一解码器。


6.根据权利要求2所述的计算机实现的方法,其中所述第一编码器经由一组长跳连接耦合到所述第二解码器,所述长跳连接压缩和/或串接所述特征表示的至少部分以输入到所述第二解码器。


7.根据权利要求1所述的计算机实现的方法,还包括:
基于翻译图像更新所述特征表示,其中所述翻译图像已被修改以移除所述第一特征;
使用所述第二解码器对所述特征表示进行解码以生成第四图像,所述第四图像包括所述一个或更多个附加特征但不包括所述第一特征;以及
基于所述翻译图像和所述第四图像之间的差异来更新所述第二解码器。


8.根据权利要求1所述的计算机实现的方法,还包括至少部分地基于一个或更多个缩放参数和移位参数来生成所述分割掩码。


9.根据权利要求1所述的计算机实现的方法,其中基于所述输入图像和所述第三图像之间的所述差异来更新所述第一解码器包括:评估第一目标函数,其指示与所述输入图像和所述第三图像相关联的第一损失值。


10.根据权利要求1所述的计算机实现的方法,其中基于所述输入图像和所述第三图像之间的所述差异来更新所述第一解码器包括:评估第二目标函数,其指示与所述第一特征和被翻译为移除所述第一特征的所述第一特征的版本相关联的第一损失值。


11.一种存储程序指令的非暂时性计算机可读介质,所述程序指令在由至少一个处理器执行时使所述至少一个处理器至少:
生成输入图像的特征表示,其中所述输入图像包括与第一特征类型相关联的第一特征和与第二特征类型相关联的一个或更多个附加特征;
使用与所述第一特征类型相关联的第一解码器对所述特征表示进行解码以生成第一图像,其包括所述第一特征但不包括所述一个或更多个附加特征;
使用与所述第二特征类型相关联的第二解码器对所述特征表示进行解码以生成第二图像,其包括所述一...

【专利技术属性】
技术研发人员:E·沃龙佐夫W·拜永S·D·梅洛V·扬帕尼刘洺堉P·莫尔恰诺夫
申请(专利权)人:辉达公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1