【技术实现步骤摘要】
用于高保真图像变换的条件轴向变换层
[0001]对相关申请的交叉引用
[0002]本申请要求于2020年10月2日提交的美国临时专利申请No.63/086,945 的优先权,其全部内容通过引用被合并于此。
技术介绍
[0003]自回归模型是一系列基于精确似然的生成模型,表示数据的联合表示。 该系列中的神经网络模型在高维图像和视频数据集上实现了最先进的对数似 然。自回归模型架构可以读取对大感受野(receptive field)的长期依赖关系, 能够表达数据上的所有联合分布。自注意(self
‑
attention)是自回归模型架构 的构建块,但自注意是以计算复杂性为代价的。自注意消耗的内存和计算量 与序列长度N成二次方增长,这使得直接将自注意应用于长序列的成本很 高。
技术实现思路
[0004]在一个方面中,提供了一种计算机实现的方法。该方法包括:经由计算 设备接收包括像素阵列的输入图像,其中,输入图像与第一特性相关联。该 方法也包括:应用神经网络,以将与第一特性相关联的输入图像变换为与第 二特性相关联的输出图像,其中,应用神经网络包括:通过神经网络的编码 器,对输入图像的像素阵列的每个像素生成编码像素,向神经网络的解码器 提供编码像素阵列,以及由解码器应用轴向注意来解码给定像素,其中,轴 向注意包括应用于与给定像素相关联的行或列之前的行或列中的一个或多个 先前解码像素的行注意或列注意,以及其中,行注意或列注意混合相应行或 列内的信息,并保持各个不同行或不同列之间的独立性。该方法还包括:通 过神 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:经由计算设备接收包括像素阵列的输入图像,其中,输入图像与第一特性相关联;应用神经网络以将与第一特性相关联的输入图像变换为与第二特性相关联的输出图像,其中,应用神经网络包括:通过神经网络的编码器,对输入图像的像素阵列的每个像素生成编码像素,向神经网络的解码器提供编码像素阵列,和由解码器应用轴向注意来解码给定像素,其中,轴向注意包括应用于与给定像素相关联的行或列之前的行或列中的一个或多个先前解码像素的行注意或列注意,且其中,行注意或列注意混合相应行或列内的信息,并保持各个不同行或不同列之间的独立性;以及通过神经网络生成与第二特性相关联的输出图像。2.根据权利要求1所述的计算机实现的方法,其中,神经网络包括多个交替的逐行和逐列的自注意层。3.根据权利要求1所述的计算机实现的方法,其中,提供阵列包括将阵列提供给神经网络的外部解码器的一个或多个自注意层,以及其中,应用轴向注意包括通过外部解码器应用以下中的一个:对给定像素应用逐行自注意,其中行注意是无掩模行注意,其中列注意是掩模列注意,并且其中,一个或多个先前解码像素位于与给定像素相关联的行之前的行中,或者对给定像素应用逐列自注意,其中行注意是掩模行注意,其中列注意是无掩模列注意,并且其中,一个或多个先前解码的像素位于与给定像素相关联的列之前的列中。4.根据权利要求3所述的计算机实现的方法,还包括:由外部解码器并以编码像素阵列为条件,生成解码像素阵列;以及向神经网络的内部解码器的一个或多个自注意层提供解码像素阵列,并且其中,应用轴向注意包括通过内部解码器应用以下中的一个:对给定像素应用逐行自注意,其中行注意是掩模行注意,并且其中,一个或多个先前解码像素在与给定像素相关联的行中在给定像素之前,或者对给定像素应用逐列自注意,其中列注意是掩模列注意,并且其中,一个或多个先前解码像素在与给定像素相关联的列中在给定像素之前。5.根据权利要求4所述的计算机实现的方法,还包括:通过内部解码器,并以编码像素阵列和解码像素阵列为条件,基于掩模行注意或掩模列注意中的一个,应用逐行自注意。6.根据权利要求1所述的计算机实现的方法,其中,与第一特性相关联的输入图像是第一分辨率的图像,并且其中,与第二特性相关联的输出图像是第二分辨率的图像,其中第二分辨率大于第一分辨率。7.根据权利要求1所述的计算机实现的方法,其中,与第一特性相关联的输入图像是灰度图像,并且其中,与第二特性相关联的输出图像是灰度图像的着色版本。8.根据权利要求7所述的计算机实现的方法,其中,灰度图像的着色版本包括灰度图像的高保真着色。
9.根据权利要求1所述的计算机实现的方法,其中,输入图像包括多个视频帧。10.根据权利要求1所述的计算机实现的方法,其中,生成输出图像还包括:通过对像素阵列的每个像素应用并行下采样来生成中间输出图像,其中,中间输出图像包括中间色彩深度、中间色彩强度、中间空间分辨率或中间色彩分辨率中的一个或多个;以及将中间输出图像中的每个像素并行上采样到输出色彩深度、输出色彩强度、输出空间分辨率或输出色彩分辨率中的相应一个或多个。11.根据权利要求1所述的计算机实现的方法,其中,生成输出图像还包括:通过对像素阵列的每个像素应用并行下采样来生成包括中间色彩深度的第一中间输出图像;以及通过对第一...
【专利技术属性】
技术研发人员:MK西瓦拉杰,D维森伯恩,NE卡尔赫布雷纳,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。