使用细分缩放和深度上缩放的图像生成制造技术

技术编号:28388366 阅读:10 留言:0更新日期:2021-05-08 00:18
用于生成输出图像的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。所述方法之一包括获得数据,该数据指定(i)将输出图像的H乘W像素网格分割成K个不相交的交错子图像和(ii)子图像的排序;和逐个子图像地生成强度值,包括:对于每个特定子图像中的每个特定像素的每个特定颜色通道,使用生成性神经网络以以下各项的强度值为条件生成特定颜色通道的强度值:(i)在排序中的特定子图像之前的子图像中的任何像素;(ii)在特定子图像内的遍及输出图像按照光栅扫描次序在特定像素之前的任何像素,以及(iii)按照颜色通道次序在特定颜色通道之前的任何颜色通道的特定像素。

【技术实现步骤摘要】
【国外来华专利技术】使用细分缩放和深度上缩放的图像生成
技术介绍
本说明书涉及使用神经网络生成图像。神经网络是机器学习模型,其采用一层或多层非线性单元来预测针对接收到的输入的输出。一些神经网络除了输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作所述网络中的下一层(即,下一个隐藏层或输出层)的输入。所述网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。
技术实现思路
本说明书描述了一种系统,该系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序,其使用生成性神经网络生成图像。在一些实现方式中,系统实现细分缩放。特别地,系统通过将输出图像的H乘W像素网格分割成K个不相交的交错子图像来生成HxWxCxD输出图像(其中H和W分别是图像的以像素数为单位的高度和宽度;C是通道数,例如3,并且D是每个通道中的位数),其中K是小于H的整数。子图像被称为交错的是因为一个子图像内的像素通常通过另一子图像中的像素与同一子图像内的其他像素分开。例如,如果存在4个子图像,则沿着水平尺寸的每一第4个像素将在同一子图像中并且沿着垂直尺寸的每一第4个像素将在同一子图像中。系统然后使用生成性神经网络即遵循子图像的排序例如光栅扫描排序来逐子图像地生成输出图像。在一些实现方式中,作为细分缩放的补充或替代,系统还实现深度上缩放(诸如例如由相机捕获的真实世界的图像的深度上缩放)。特别地,当生成包括N位强度值的图像时,系统首先生成具有b位强度值(其中b小于N)的初始输出图像,然后以该初始输出图像为条件生成每个强度值的剩余N-b位。为了生成初始输出图像或最终输出图像或两者,系统能够实现细分缩放。本说明书的主题的某些新颖方面在以下权利要求中提出。本说明书中描述的主题可以在特定实施例中实现,使得实现以下优点中的一个或多个。常规的自回归生成性神经网络通常仅能够在它们被配置成生成的图像的大小相对较小时生成高保真度图像,甚至然后这些模型往往需要大量的存储器和计算才能生成图像。特别地,自回归地生成较大图像需要在生成图像中的强度值的至少一些时对大量上下文进行编码,并且训练生成性神经网络需要学习遍及非常大数目的变量保留细节的全局语义一致性和确切性两者的分布。另一方面,所描述的系统能够甚至在图像的大小大时也生成高保真度图像,同时保留负责由自回归生成神经网络生成的图像的高质量的图像范围空间依赖性。特别地,所描述的系统将图像生成为子图像的序列。这允许所描述的系统在子图像中保留像素的空间结构,同时紧凑地捕获图像范围空间依赖性。因此,所描述的系统仅需要将另外是生成大图像同时仍然生成高保真度图像所需要的存储器和计算的一小部分。附加地,所描述的系统能够执行深度上缩放,即,首先生成图像中的所有强度值的各位的第一子集,然后以第一子集为条件生成剩余位,以进一步增加所描述的用于生成非常高保真度的大规模图像样本的系统的容量。存储器和处理能力要求的降低使目前构思的一些实现方式变得适合于在诸如包括被用于捕获真实世界的图像的单元(例如,相机)的移动设备的移动设备中使用,所述真实世界的图像在本文所描述的构思的一些实现方式中被用作图像生成系统的输入图像。本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书,本主题的其它特征、方面和优点将变得显而易见。附图说明图1图示在生成图像时可以由图像生成系统采用的不同技术。图2示出示例图像生成系统。图3示出另一示例图像生成系统。图4是用于使用细分缩放来生成输出图像的示例过程的流程图。图5是用于使用深度上缩放来生成输出图像的示例过程的流程图。在各种附图中,相同的附图标记和标记指示相同的元件。具体实施方式本说明书描述了一种使用生成性神经网络生成图像的图像生成系统。如将在下面描述的,在一些实现方式中,系统无条件地生成图像,即,生成看起来好像它们是从用于训练图像生成系统的训练集绘制但是不另外以任何外部输入为条件的图像。在一些其他实现方式中,系统以较低分辨率输入图像为条件生成高分辨率图像,即,系统执行超分辨率以生成输入图像的较高分辨率版本。在一些其他实现方式中,作为提高输入图像的分辨率的替代或补充,系统能够通过将输入图像中的强度值转换为较高位深度(例如将输入图像从将3位强度值转换为8位强度值或者将输入图像从6位强度值转换为16位强度值)来提高输入图像的质量。通常,系统能够将输入图像从低位深度转换为较高位深度,即,其中低位深度是较高位深度的一半或不到一半。在一些其他实现方式中,系统接收标识图像的属性的不同的调节输入(例如,本身不是图像的调节输入,并且可能不具有与输出图像的相应的部分相对应的分量),并且生成具有经标识的属性的输出图像。图1图示能够由图像生成系统在生成输出图像时采用的不同的技术。在图1的示例中,正由系统生成的输出图像是4x4图像,其因此包括16个像素,对于这16个像素,需要生成强度值以生成输出图像。为了生成输出图像,系统针对每个像素生成一个或多个颜色通道中的每一个的相应的强度值。当图像生成系统被配置成生成灰度图像时,每像素仅有单个颜色通道。当图像生成系统被配置成生成彩色图像时,每像素有多个颜色通道。例如,颜色通道的集合能够包括红色颜色通道、绿色颜色通道和蓝色颜色通道。作为不同的示例,颜色通道的集合包括青色颜色通道、品红颜色通道、黄色颜色通道和黑色颜色通道。当存在多个颜色通道时,根据预先确定的通道次序例如红色、绿色、然后蓝色或者蓝色、红色、然后绿色来布置多个颜色通道。图1包括用于生成输出图像的强度值的常规技术的生成次序的图示102。在图示102所示的生成次序中,系统以光栅扫描次序生成图像中的16个像素的强度值。在光栅扫描次序中,系统从左顶部(像素#1)开始,然后沿着图像逐行继续进行,直到到达右底部(像素#16)为止。在每个像素内,系统根据预先确定的通道次序例如首先红色、然后绿色、然后蓝色或者首先蓝色、然后红色、然后绿色来生成颜色通道的强度值。通常,为了改进所生成的图像的质量,系统将自回归地生成每个像素的强度值,使得给定像素的给定颜色通道的强度值以已经被生成的强度值(按照生成次序在给定像素前面(即之前)的像素的强度值和已经被生成的给定像素的任何强度值(当给定颜色通道按照预先确定的次序不是第一颜色通道时))为条件。因此,左底部像素(像素#11)的强度值将以排序中的像素1至10的强度值为条件。系统能够使用生成性神经网络即通过针对需要被生成的每个值不同地调节生成性神经网络来逐个值地生成这些强度值。然而,当图像变大时,以这种方式生成强度值需要在生成图像例如在生成次序末尾附近的像素中的强度值的至少一些时对大量上下文进行编码。也就是说,当图像中的像素的数目变大时,为在次序末尾附近的像素生成强度值需要在非常大数目的强度值即非常大的图像中的几乎所有像素的强度值上调节生成性神经网络。这使生成输出图像变得非常计算密集并且使训练生成性神经网络生成高质量图像变得非常困难本文档来自技高网...

【技术保护点】
1.一种生成具有被布置在H乘W像素网格中的多个像素的输出图像的方法,其中每个像素包括根据颜色通道次序排序的一个或多个颜色通道中的每一个的相应的强度值,并且其中所述方法包括:/n获得数据,所述数据指定(i)将所述H乘W像素网格分割成K个不相交的交错子图像,其中K是小于H的整数,和(ii)所述子图像的排序;和/n根据所述子图像的排序逐个子图像地生成强度值,包括:/n对于每个特定子图像中的每个特定像素的每个特定颜色通道,使用生成性神经网络,以针对下述各项的强度值为条件来生成所述特定颜色通道的强度值:(i)在所述子图像的排序中在所述特定子图像之前的子图像中的任何像素;(ii)遍及所述输出图像按照光栅扫描次序在所述特定像素之前的所述特定子图像内的任何像素;以及(iii)按照所述颜色通道次序在所述特定颜色通道之前的任何颜色通道的所述特定像素。/n

【技术特征摘要】
【国外来华专利技术】20180927 US 62/737,8141.一种生成具有被布置在H乘W像素网格中的多个像素的输出图像的方法,其中每个像素包括根据颜色通道次序排序的一个或多个颜色通道中的每一个的相应的强度值,并且其中所述方法包括:
获得数据,所述数据指定(i)将所述H乘W像素网格分割成K个不相交的交错子图像,其中K是小于H的整数,和(ii)所述子图像的排序;和
根据所述子图像的排序逐个子图像地生成强度值,包括:
对于每个特定子图像中的每个特定像素的每个特定颜色通道,使用生成性神经网络,以针对下述各项的强度值为条件来生成所述特定颜色通道的强度值:(i)在所述子图像的排序中在所述特定子图像之前的子图像中的任何像素;(ii)遍及所述输出图像按照光栅扫描次序在所述特定像素之前的所述特定子图像内的任何像素;以及(iii)按照所述颜色通道次序在所述特定颜色通道之前的任何颜色通道的所述特定像素。


2.根据任意一项前述权利要求所述的方法,其中,对于每个特定子图像中的每个特定像素的每个特定颜色通道,所述特定颜色通道的所述强度值不是以针对以下各项的任何强度值为条件:(i)在所述子图像的排序中在所述特定子图像之后的子图像中的任何像素;(ii)遍及所述输出图像按照光栅扫描次序在所述特定像素之后的所述特定子图像内的任何像素;以及(iii)按照所述颜色通道次序在所述特定颜色通道之后的任何颜色通道的所述特定像素。


3.根据任意一项前述权利要求所述的方法,其中,基于所述输出图像中的每个子图像的左上角像素的位置,所述子图像的排序按照光栅扫描次序对所述子图像进行排序。


4.根据任意一项前述权利要求所述的方法,其中,生成所述强度值包括:
对于每个特定子图像:
使用嵌入神经网络来处理嵌入输入以生成编码子图像张量,所述嵌入输入包括针对在所述排序中在所述特定子图像之前的子图像已经生成的强度值;和
使用解码器神经网络,以所述编码子图像张量为条件来自回归地生成所述特定子图像中的所述像素的所述强度值。


5.根据权利要求4所述的方法,其中所述嵌入输入包括沿着深度尺寸级联的已经生成的子图像。


6.根据权利要求5所述的方法,其中,所述嵌入输入包括空白填补的子图像,以保留每个已经生成的子图像相对于所述特定子图像的排序。


7.根据权利要求4-6中任一项所述的方法,其中,所述嵌入输入包括指定所述特定子图像在所述排序中的方位的数据。


8.根据权利要求4-7中的任一项所述的方法,其中,所述嵌入神经网络是具有残差块的卷积神经网络。


9.根据权利要求4-8中任一项所述的方法,其中,所述解码器神经网络在所述特定子图像内按照光栅扫描次序生成所述特定子图像中的所述像素的强度值。


10.根据权利要求4-9中任一项所述的方法,其中,所述解码器神经网络以方位保留方式将所述编码子图像张量作为输入。


11.根据权利要求4-10中任一项所述的方法,其中,所述解码器对解码器输入进行处理,所述解码器输入包括所述编码子图像张量并且具有与所述子图像相同的空间尺寸。


12.根据权利要求4-11中任一项所述的方法,其中,所述解码器神经网络具有混合架构,所述混合架构组合掩蔽卷积和自我注意力。


13.根据前述权利要求中任一项所述的方法,进一步包括:获得调节输入,并且其中生成强度值包括:在所述调节输入上调节每个强度值。


14.根据权利要求13所述的方法,其中,所述调节输入包括较低分辨率的图像,并且其中生成强度值包括:将所述较低分辨率的图像设置为所述排序中的所述第一子图像。


15.根据权利要求13或14所述的方法,其中所述调节输入包括低位深度H乘W图像。


16.根据当从属于权利要求4-12中的任一项时的权利要求15所述的方法,其中生成所述强度值包括:将来自所述低位深度H乘W图像的子图像包括在用于所述编码器神经网络的所述嵌入输入中。


17.根据权利要求13-15所述的方法,其中,所述调节输入是表征所述输出图像的期望内容的调节张量,其中,所述生成性神经网络包括一个或多个卷积层,并且其中生成...

【专利技术属性】
技术研发人员:纳尔·埃默里赫·卡尔赫布伦纳雅各布·李·米尼克
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1