用于高保真图像变换的条件轴向变换层制造技术

技术编号:32212113 阅读:18 留言:0更新日期:2022-02-09 17:17
设备和方法涉及:接收包括像素阵列的输入图像,其中输入图像与第一特性相关联;应用神经网络以将输入图像变换为与第二特性相关联的输出图像,由编码器对输入图像的像素阵列的每个像素生成编码像素,向解码器提供编码像素阵列,由解码器应用轴向注意来解码给定像素,其中,轴向注意包括应用于与给定像素相关联的行或列之前的行或列中的一个或多个先前解码像素的行注意或列注意,以及其中,行或列注意混合相应行或列内的信息,并保持各个不同行或不同列之间的独立性;以及通过神经网络生成输出图像。出图像。

【技术实现步骤摘要】
用于高保真图像变换的条件轴向变换层
[0001]对相关申请的交叉引用
[0002]本申请要求于2020年10月2日提交的美国临时专利申请No.63/086,945 的优先权,其全部内容通过引用被合并于此。

技术介绍

[0003]自回归模型是一系列基于精确似然的生成模型,表示数据的联合表示。 该系列中的神经网络模型在高维图像和视频数据集上实现了最先进的对数似 然。自回归模型架构可以读取对大感受野(receptive field)的长期依赖关系, 能够表达数据上的所有联合分布。自注意(self

attention)是自回归模型架构 的构建块,但自注意是以计算复杂性为代价的。自注意消耗的内存和计算量 与序列长度N成二次方增长,这使得直接将自注意应用于长序列的成本很 高。

技术实现思路

[0004]在一个方面中,提供了一种计算机实现的方法。该方法包括:经由计算 设备接收包括像素阵列的输入图像,其中,输入图像与第一特性相关联。该 方法也包括:应用神经网络,以将与第一特性相关联的输入图像变换为与第 二特性相关联的输出图像,其中,应用神经网络包括:通过神经网络的编码 器,对输入图像的像素阵列的每个像素生成编码像素,向神经网络的解码器 提供编码像素阵列,以及由解码器应用轴向注意来解码给定像素,其中,轴 向注意包括应用于与给定像素相关联的行或列之前的行或列中的一个或多个 先前解码像素的行注意或列注意,以及其中,行注意或列注意混合相应行或 列内的信息,并保持各个不同行或不同列之间的独立性。该方法还包括:通 过神经网络生成与第二特性相关联的输出图像。
[0005]在另一方面中,提供了一种计算设备。计算设备包括一个或多个处理器 以及数据存储器。数据存储器在其上存储有计算机可执行指令,当指令由一 个或多个处理器执行时,使计算设备执行功能。所述功能包括:接收包括像 素阵列的输入图像,其中,输入图像与第一特性相关联;应用神经网络以将 与第一特性相关联的输入图像变换为与第二特性相关联的输出图像,其中, 应用神经网络包括:通过神经网络的编码器,对输入图像的像素阵列的每个 像素生成编码像素,向神经网络的解码器提供编码像素阵列,以及由解码器 应用轴向注意来解码给定像素,其中,轴向注意包括应用于与给定像素相关 联的行或列之前的行或列中的一个或多个先前解码像素的行注意或列注意, 以及其中,行注意或列注意混合相应行或列内的信息,并保持各个不同行或 不同列之间的独立性;以及通过神经网络生成与第二特性相关联的输出图像。
[0006]在另一方面中,提供了一种计算机程序。计算机程序包括由计算机执行 时使计算机执行功能的指令。所述功能包括:接收包括像素阵列的输入图像, 其中,输入图像与第一特性相关联;应用神经网络以将与第一特性相关联的 输入图像变换为与第二特性相关联的输出图像,其中,应用神经网络包括: 通过神经网络的编码器,对输入图像的像素阵列的
每个像素生成编码像素, 向神经网络的解码器提供编码像素阵列,以及由解码器应用轴向注意来解码 给定像素,其中,轴向注意包括应用于与给定像素相关联的行或列之前的行 或列中的一个或多个先前解码像素的行注意或列注意,以及其中,行注意或 列注意混合相应行或列内的信息,并保持各个不同行或不同列之间的独立性; 以及通过神经网络生成与第二特性相关联的输出图像。
[0007]在另一方面中,提供了一种制造品。制造品包括一个或多个计算机可读 媒体,其上存储有计算机可读指令,当由计算设备的一个或多个处理器执行 时,使计算设备执行功能。所述功能包括:接收包括像素阵列的输入图像,其 中,输入图像与第一特性相关联;应用神经网络以将与第一特性相关联的输 入图像变换为与第二特性相关联的输出图像,其中,应用神经网络包括:通 过神经网络的编码器,对输入图像的像素阵列的每个像素生成编码像素,向 神经网络的解码器提供编码像素阵列,以及由解码器应用轴向注意来解码给 定像素,其中,轴向注意包括应用于与给定像素相关联的行或列之前的行或 列中的一个或多个先前解码像素的行注意或列注意,以及其中,行注意或列 注意混合相应行或列内的信息,并保持各个不同行或不同列之间的独立性; 以及通过神经网络生成与第二特性相关联的输出图像。
[0008]在另一方面,提供了一种系统。所述系统包括:用于接收包括像素阵列 的输入图像的装置,其中,输入图像与第一特性相关联;用于应用神经网络 以将与第一特性相关联的输入图像变换为与第二特性相关联的输出图像的装 置,其中,应用神经网络包括:通过神经网络的编码器,对输入图像的像素阵 列的每个像素生成编码像素,向神经网络的解码器提供编码像素阵列,以及 由解码器应用轴向注意来解码给定像素,其中,轴向注意包括应用于与给定 像素相关联的行或列之前的行或列中的一个或多个先前解码像素的行注意或 列注意,以及其中,行注意或列注意混合相应行或列内的信息,并保持相应 不同行或不同列之间的独立性;以及用于通过神经网络生成与第二特性相关 联的输出图像的装置。
[0009]上述概要仅为说明性的,并且不意欲以任何方式被限制。除了上述说明 性方面、实施例和特性之外,通过参考附图和以下详细描述以及附图,进一 步的方面、实施例和特性将变得显而易见。
附图说明
[0010]专利或申请文件至少包含一幅彩色图纸。应要求并支付必要费用后,专 利局将提供本专利或专利申请出版物及彩色图纸的副本。
[0011]图1示出了示出根据示例性实施例的有条件的基于轴向自注意的神经网 络的示例性框图。
[0012]图2是示出根据示例性实施例的多维特性向量的示例性轴向变换器的图。
[0013]图3是示出根据示例性实施例的应用于多维特性向量的示例性掩模操作 的图。
[0014]图4A示出了根据示例性实施例的示例性自回归着色器。
[0015]图4B示出了根据示例性实施例的示例性色彩上采样器。
[0016]图4C示出了根据示例性实施例的示例性空间上采样器。
[0017]图5示出了根据示例实施例的应用于灰度图像的着色的示例图像。
[0018]图6A和图6B示出了根据示例性实施例在训练神经网络时超参数选择 的示例性图
形表示。
[0019]图7示出了根据示例实施例的基于灰度图像的预测概率分布的示例图形 表示。
[0020]图8示出了根据示例性实施例的真实数据图像和图像的预测着色的示例。
[0021]图9示出了根据示例性实施例的真实数据图像和图像的预测着色的示例。
[0022]图10是示出根据示例实施例的机器学习模型的训练和推断阶段的图。
[0023]图11描绘了根据示例实施例的分布式计算架构。
[0024]图12是根据示例实施例的计算设备的框图。
[0025]图13描绘了根据示例实施例布置为基于云的服务器系统的计算集群网 络。
[0026]图14是根据示例实施例的方法的流程图。
具体实施方式
[0027]本申请在一个方面涉及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:经由计算设备接收包括像素阵列的输入图像,其中,输入图像与第一特性相关联;应用神经网络以将与第一特性相关联的输入图像变换为与第二特性相关联的输出图像,其中,应用神经网络包括:通过神经网络的编码器,对输入图像的像素阵列的每个像素生成编码像素,向神经网络的解码器提供编码像素阵列,和由解码器应用轴向注意来解码给定像素,其中,轴向注意包括应用于与给定像素相关联的行或列之前的行或列中的一个或多个先前解码像素的行注意或列注意,且其中,行注意或列注意混合相应行或列内的信息,并保持各个不同行或不同列之间的独立性;以及通过神经网络生成与第二特性相关联的输出图像。2.根据权利要求1所述的计算机实现的方法,其中,神经网络包括多个交替的逐行和逐列的自注意层。3.根据权利要求1所述的计算机实现的方法,其中,提供阵列包括将阵列提供给神经网络的外部解码器的一个或多个自注意层,以及其中,应用轴向注意包括通过外部解码器应用以下中的一个:对给定像素应用逐行自注意,其中行注意是无掩模行注意,其中列注意是掩模列注意,并且其中,一个或多个先前解码像素位于与给定像素相关联的行之前的行中,或者对给定像素应用逐列自注意,其中行注意是掩模行注意,其中列注意是无掩模列注意,并且其中,一个或多个先前解码的像素位于与给定像素相关联的列之前的列中。4.根据权利要求3所述的计算机实现的方法,还包括:由外部解码器并以编码像素阵列为条件,生成解码像素阵列;以及向神经网络的内部解码器的一个或多个自注意层提供解码像素阵列,并且其中,应用轴向注意包括通过内部解码器应用以下中的一个:对给定像素应用逐行自注意,其中行注意是掩模行注意,并且其中,一个或多个先前解码像素在与给定像素相关联的行中在给定像素之前,或者对给定像素应用逐列自注意,其中列注意是掩模列注意,并且其中,一个或多个先前解码像素在与给定像素相关联的列中在给定像素之前。5.根据权利要求4所述的计算机实现的方法,还包括:通过内部解码器,并以编码像素阵列和解码像素阵列为条件,基于掩模行注意或掩模列注意中的一个,应用逐行自注意。6.根据权利要求1所述的计算机实现的方法,其中,与第一特性相关联的输入图像是第一分辨率的图像,并且其中,与第二特性相关联的输出图像是第二分辨率的图像,其中第二分辨率大于第一分辨率。7.根据权利要求1所述的计算机实现的方法,其中,与第一特性相关联的输入图像是灰度图像,并且其中,与第二特性相关联的输出图像是灰度图像的着色版本。8.根据权利要求7所述的计算机实现的方法,其中,灰度图像的着色版本包括灰度图像的高保真着色。
9.根据权利要求1所述的计算机实现的方法,其中,输入图像包括多个视频帧。10.根据权利要求1所述的计算机实现的方法,其中,生成输出图像还包括:通过对像素阵列的每个像素应用并行下采样来生成中间输出图像,其中,中间输出图像包括中间色彩深度、中间色彩强度、中间空间分辨率或中间色彩分辨率中的一个或多个;以及将中间输出图像中的每个像素并行上采样到输出色彩深度、输出色彩强度、输出空间分辨率或输出色彩分辨率中的相应一个或多个。11.根据权利要求1所述的计算机实现的方法,其中,生成输出图像还包括:通过对像素阵列的每个像素应用并行下采样来生成包括中间色彩深度的第一中间输出图像;以及通过对第一...

【专利技术属性】
技术研发人员:MK西瓦拉杰D维森伯恩NE卡尔赫布雷纳
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1