生成或者处理图像序列的循环单元制造技术

技术编号:34944337 阅读:16 留言:0更新日期:2022-09-17 12:19
提出了一种循环单元,该循环单元在时间步系列中的每个时间步接收对应输入向量并且针对二维像素阵列的每个像素在该时间步生成具有至少一个分量的输出。该循环单元在时间步系列的除了第一个时间步之外的每个时间步被配置成接收循环单元在前一时间步的输出,并且对循环单元在前一时间步的输出应用取决于在该时间步的输入向量的至少一个卷积。该卷积进一步取决于循环单元在前一时间步的输出。该卷积为阵列的每个像素生成具有至少一个分量的翘曲数据集。循环单元在每个时间步的输出基于该翘曲数据集和该输入向量。翘曲数据集和该输入向量。翘曲数据集和该输入向量。

【技术实现步骤摘要】
【国外来华专利技术】生成或者处理图像序列的循环单元


[0001]本说明书涉及一种用于神经网络的循环单元。

技术介绍

[0002]神经网络是采用一个或多个非线性单元层来针对接收到的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层,即下一隐藏层或输出层,的输入。网络的每个层依照相应参数集的当前值从接收到的输入生成输出。
[0003]一些神经网络是循环神经网络。循环神经网络是接收输入序列并且从该输入序列生成输出序列的神经网络。特别地,循环神经网络能够在计算当前时间步的输出时使用来自前一时间步的网络的状态中的一些或全部。循环神经网络的示例是包括一个或多个长短期(LSTM)记忆块的LSTM神经网络。每个LSTM记忆块能够包括一个或多个单元,每个单元包括输入门、遗忘门和输出门,这些门允许单元存储该单元的先前状态,例如,用于在生成当前激活时使用或者被提供给LSTM神经网络的其他组件。

技术实现思路

[0004]本说明书通常描述一种实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统,该系统实现用于自适应系统的循环单元。该循环单元生成输出,并且在循环更新期间翘曲输出。如在下面进一步描述的,循环单元可以是循环神经网络的层,或者是循环神经网络的层的一部分。
[0005]能够采用循环单元作为较大自适应系统的组件,其中循环单元的输出是自适应系统的隐藏状态(即不是由自适应系统输出的数据)。在一种情况下,自适应系统可以包括循环神经网络。循环单元可以例如对应于具有多个循环层的循环神经网络的一个循环层。循环层中的任何一个或多个可以是如这里所描述的循环单元。循环层在序列(栈)中,其中由序列的除了序列的最后层之外的每个循环层生成的数据被传递以成为序列的下一循环层的输入。此外,自适应系统可以包括:输入单元(例如由进一步的自适应层组成),该输入单元处理在传送到循环神经网络之前输入到自适应系统的数据;和/或输出单元(例如进一步的自适应层),该输出单元处理由循环神经网络生成的数据。例如,这些循环单元中的一个或多个可以接收和/或生成在特征空间中的数据。例如,输入单元可以将图像空间中的图像(例如适合于人类观测的图像)转换到特征空间中并且/或者输出单元可以将从循环单元生成的数据从特征空间转换到图像空间中。
[0006]翘曲(warping)特别但不排他地适于图像和视频处理。因此使用循环单元的自适应系统可以接收和/或生成具有时间关系的图像序列,例如以实现用于生成详述时间顺序的图像序列(诸如包括一系列帧的视频)的生成器网络。
[0007]循环单元由能够至少在自适应系统的训练阶段期间变化的多个参数定义。跟随训练阶段之后,自适应系统可以具有其中参数不变化的使用阶段。
[0008]循环单元能够被用在接收和/或生成具有时间进展的图像序列的多种类型的自适应系统中。例如,该自适应系统可以是用于生成具有时间进展的图像序列(例如,类似由摄像机捕获的真实世界的视频的视频)的生成器网络。
[0009]在一般术语中,本公开提出循环单元在时间步系列的每个时间步(每个时间步在以下公开的示例中被表示为t)被布置成接收对应输入向量(在示例中被表示为x
t
)并且为二维像素阵列(通常是方阵列,其在示例中分别由H和W表示的两个维度上具有相应数量的像素)的每个像素生成在该时间步的输出(在示例中被表示为h
t
)。循环单元在时间步系列的除了第一个时间步之外的每个时间步被配置成接收循环单元在前一时间步的输出(在示例中被表示为h
t
‑1),并且对循环单元在前一时间步的输出(h
t
‑1)应用取决于在该时间步的输入向量的至少一个卷积。该卷积进一步取决于循环单元在前一时间步的输出。该卷积为阵列的每个像素生成具有至少一个分量(更一般地,D分量)的翘曲数据集(即张量;在示例中被表示为)。循环单元在每个时间步的输出基于该翘曲数据集和该输入向量。
[0010]例如,如下所述,循环单元在时间步系列的每个时间步的(循环)输出(h
t
)可以用于被生成有序图像序列的相应图像。也就是说,时间步的次序与图像序列的次序相同,例如第一个时间步对应于序列的第一图像;系列的第二个时间步对应于序列的第二图像等。在一种可能性中,循环单元的给定输出可以简单地是图像序列的对应图像。在另一可能性中,循环单元的给定输出可以是能够被转换成图像序列的一个图像的特征图。
[0011]从概念观点来看,翘曲可以被理解为表示循环单元的两个连续输出之间的变换。这可以是与循环单元的输出的仅一部分相关的变换。
[0012]例如,假设循环单元的两个连续输出,“第一输出”和“第二输出”,对应于两个连续图像,这里为“第一图像”和“第二图像”。假设这两个图像都示出正在移动的对象(即该对象在每个图像中处于不同的相应位置中)。关于与对象相关的第一输出的像素,卷积可以将第一输出中的对应值移动与对象在第一图像与第二图像之间的运动相对应的量。也就是说,卷积对这种像素来说是作为平移的变换。卷积通过移动与和对象相对应的像素相关的值来翘曲第一输出。
[0013]换句话说,卷积使像素的第一子集(与对象相关的第一输出中的像素)与像素的第二不同子集(与对象相关的第二输出中的像素)相关。卷积通过将其值从第一像素组移动到第二像素组来翘曲第一输出。因此,当循环单元形成与第二像素组相关的第二输出的部分时,它能够利用与第一像素组相关的第一输出的部分。
[0014]以这种方式,关于存在于第一图像的特定部分中的对象的信息能够被用于改进对象已移动到的第二图像的不同部分。改进可以例如确保对象利用一致颜色、大小、形状等呈现。即使对象在图像对之间具有大位移这个也被实现。
[0015]相反地,关于未描述移动对象的第一输出的像素(例如描述第一图像中的静态背景的第一输出的像素),卷积可以不引起任何运动。以这种方式,关于存在于第一图像中的背景的信息能够被用于改进示出相同背景的第二图像的一部分(例如以确保背景的该部分在两个图像中利用一致颜色、图案化等呈现)。
[0016]与用于生成图像序列的已知技术相比,循环单元因此允许图像序列被生成具有改进的特性,诸如在序列中的连续图像之间具有改进的一致性,即使当对象在这些图像中的连续图像内的运动程度非常大时也如此。例如,所生成的图像序列可以显示出较大真实感,
例如对人类来说更难以与真实世界的视频区分开。这是以可接受的计算成本实现的。
[0017]此外,在不必然生成图像而是相反接收图像序列的循环单元的应用(例如如下所述的图像序列分类任务)中,可以提取关于在图像内移动的对象的信息。与移动对象相关的循环单元的第一输出的部分的卷积是为了将对象的运动反映到其在循环单元的第二紧接连续输出中的位置。这使来自循环单元的第一输出的关于对象的信息变得可用于与来自循环单元的第二输出的关于对象的信息组合,以生成关于对象的更准确信息(例如对象的更准确分类)。即使对象在循环单元的输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种循环单元,所述循环单元被布置成在时间步系列的每个时间步接收对应的输入向量并且为二维像素阵列的每个像素生成具有至少一个相应值的输出,所述循环单元在所述时间步系列的除了第一个时间步之外的每个时间步被配置成:接收所述循环单元在前一时间步的输出,对所述循环单元在所述前一时间步的所述输出应用取决于在所述时间步的所述输入向量并且取决于所述循环单元在所述前一时间步的所述输出的至少一个卷积,以为所述阵列的每个像素生成具有至少一个分量的翘曲数据集,以及基于所述翘曲数据集和所述输入向量来生成在所述时间步的所述输出。2.根据权利要求1所述的循环单元,其中所述循环单元能够操作为通过针对每个像素以相应方式对所述循环单元在所述前一时间步的所述输出进行卷积来为所述阵列的每个像素生成所述翘曲数据集的所述至少一个分量。3.根据权利要求2所述的循环单元,其被配置成使用所述输入向量来为所述阵列的每个像素生成相应核,并且基于对应核来为每个像素生成所述翘曲数据集的所述至少一个分量。4.根据权利要求2或权利要求3所述的循环单元,其被配置成:生成所述翘曲数据集的所述至少一个分量作为所述循环单元在所述前一时间步的所述输出的对应分量与各自取决于所述输入向量和所述循环单元在所述前一时间步的所述输出的相应多个核的卷积的加权和,所述加权和的权重对所述阵列的不同的所述像素来说是不同的。5.根据任一前述权利要求所述的循环单元,其被配置成生成在每个时间步的所述输出作为以下各项的和:(i)所述翘曲数据集与融合向量的逐分量乘积,以及(ii)与所述融合向量相反地变化的向量和由所述循环单元的整流线性单元生成的精化向量的逐分量乘积。6.根据权利要求5所述的循环单元,其被配置成通过对以下项应用函数来生成所述融合向量的每个元素:第一权重向量与所述网络在所述前一时间步的所述输出和所述输入向量的级联的逐分量乘积的相应分量加上相应第一偏移值。7.根据权利要求5所述的循环单元,其被配置成通过对以下项应用函数来生成所述融合向量的每个元素:第一权重向量与所述翘曲数据集和所述输入向量的级联的逐分量乘积的相应分量加上相应第一偏移值。8.根据权利要求5至7中的任一项所述的循环单元,其中,所述整流线性单元被配置成通过对以下项应用整流线性函数来生成所述精化向量的每个元素:第二权重向量与所述网络在所述前一时间步的所述输出和所述输入向量的级联的逐分量乘积的相应分量加上相应第二偏移值。9.根据权利要求5至7中的任一项所述的循环单元,其中,所述整流线性单元被配置成通过对以下项应用整流线性函数来生成所述精化向量的每个元素:第二权重向量与所述翘曲数据集的所述输出和所述输入向量的级联的逐分量乘积的相应分量加上相应第二偏移值。10.一种用于生成表示时间进展并且由二维像素阵列的每个像素的值组成的图像序列的生成器网络,所述生成器网络包括根据任一前述权利要求所述的循环单元,所述生成器网络被配置成基于所述循环单元在所述时间步的相应一个中的相应输出来生成所述图像
序列的每个图像。11.一种用于在图像序列内标识具有一个或多个特性的每个图像的一部分的分段网络,所述分段网络包括根据权利要求1至9中的任一项所述的循环单元,所述循环单元被布置成在时间步系列的每个时间步接收包括所述图像序列的对应图像的输入向量,所述分段网络被配置成在每个时间步中从所述循环单元在对应时间步中的所述输出生成标识所述对应图像的一部分的数据。12.一种用于生成将图像序列分类为位于类的集合中的一个或多个类中的数据的分类网络,所述分类网络包括根据权利要求1至9中的任一项所述的循环单元,所述循环单元被布置成在时间步系列的每个时间步接收包括所述图像序列的对应图像的输入向量,所述分类网络被配置成从所述循环单元在相应时间步系列的每个时间步的所述输出生成标识所述类中的一个或多个类的数据。13.一种用于增加图像序列的空间分辨率和/或时间分辨率的自适应系统,所述自适应系统包括根据权利要求1至9中的任一项所述的循环单元,所述循环单元被布置成在时间步系列的每个时间步接收包括第一图像序列的一个图像的输入向量,所述自适应系统被配置成生成具有与所述第一图像序列的图像比更高的空间分辨率和/或时间分辨率的图像序列。14.一种联合地训练根据权利要求10所述的生成器网络和鉴别器网络的计算机实现的方法,所述鉴别器网络用于区分由所述生成器网络生成的图像序列和不是由所述生成器网络生成的图像序列,所述方法包括:接收表示时间进展的一个或多个第一图像序列;以及重复地执行以下各项的迭代步骤:由...

【专利技术属性】
技术研发人员:波利娜
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1