使用空间和时间上的注意力对来自视频序列的对象表示的无监督学习制造技术

技术编号：39812765 阅读：9 留言：0更新日期：2023-12-22 19:30

一种计算机实现的视频生成神经网络系统，被配置为通过从对象潜在变量的相应先验对象潜在分布中进行采样来确定一组对象潜在变量中的每一个的值

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用空间和时间上的注意力对来自视频序列的对象表示的无监督学习

技术介绍

[0001]本说明书涉及训练机器学习模型来表征视频帧中的对象以及诸如视点之类的全局时变元素
。
机器学习模型接收输入并基于接收的输入和模型的参数值生成输出，例如预测的输出
。
[0002]神经网络是采用一层或多层非线性单元对接收到的输入来预测输出的机器学习模型
。
除了输出层之外，一些神经网络还包括一个或多个隐藏层
。
每个隐藏层的输出被用作网络中下一个层
(
即下一个隐藏层或输出层
)
的输入
。
网络的每一层根据相应组参数的当前值从接收的输入生成输出
。

技术实现思路

[0003]本说明书总体上描述了一种系统和方法，其被实现为在一个或多个物理位置的一个或多个计算机上的一个或多个计算机程序，其训练视频对象表示神经网络系统
。
经训练的系统的编码器部分可以用于确定视频序列中多个不同对象的属性，或者确定视频序列的视点位置，或者这两者
。
经训练的系统的解码器部分可以用于生成新的视频序列
。
编码器和解码器可以一起用于修改视频序列
。
[0004]在一个方面，提供了一种训练视频对象表示神经网络系统的计算机实现的方法
。
视频对象表示神经网络系统包括自注意力神经网络，该自注意力神经网络包括一个或多个自注意力层
(
例如变换器神经网络层
)r/>并且具有多个自注意力神经网络参数，每个自注意力层被配置为在层输入上应用自注意力机制
。
[0005]该方法包括获得包括
T
个图像帧的序列的视频序列，在一系列时间中的每一个时间处一个图像帧，并且处理每个图像帧以生成
T
个图像帧中的每一个的一组
S
个空间编码
。
该方法由此获得视频序列的
S
×
T
个空间编码的组
。
每个空间编码包括图像帧的相应区域或片
(patch)
的编码
。
该视频可以例如从相机或
LIDAR
传感器获得，即图像帧可以包括点云
。
[0006]该方法还包括使用注意力神经网络处理
S
×
T
个空间编码的组，具体是通过在包括
S
×
T
个空间编码的组的层输入上应用自注意力机制，以可选地在进一步的自注意处理步骤之后生成变换的空间编码的组
。
每个变换的空间编码对应于一个图像帧时间和一个图像帧区域
。
变换的空间编码的组可以具有相同或不同的分辨率，例如较低的分辨率，即可以有
S
×
T
个或更少的变换的空间编码
。
在实现方式中，在层输入上应用自注意力机制包括在不同图像帧的空间编码上，即在来自一系列时间中的不同时间的图像帧上应用自注意力机制
。
[0007]该方法还包括针对一组对象潜在变量
(
通常是向量
)
中的每一个确定用于参数化对象潜在变量的对象潜在分布的一个或多个值，例如分布的平均值或标准偏差
(
或方差
)。
这是通过在图像帧的时间上聚合变换的空间编码的组来完成的
。
该方法还可以通过在图像帧的区域上聚合变换的空间编码的组，针对一组帧潜在变量中的每一个确定用于参数化帧潜在变量的帧潜在分布的一个或多个值
。
该方法通过从对象潜在变量的对象潜在分布中采样来确定该组对象潜在变量中的每一个的值
。
该方法还可以通过从帧潜在变量的帧潜在分
布中采样来确定该组帧潜在变量中的每一个的值
。
[0008]该方法处理确定的对象潜在变量的值
(
并且可以处理确定的帧潜在变量的确定的值
)
以生成解码的图像帧序列
。
存在许多类型的能够从一组潜在变量生成图像的解码器，并且可以使用这些中的任何一种
。
稍后描述示例解码器
。
[0009]该方法然后可以包括通过至少调整自注意力神经网络参数的值，以取决于
i)T
个图像帧的序列和解码的图像帧序列之间的差异的度量，
ii)
每个对象潜在分布和先验对象潜在分布之间的差异来优化目标函数，来训练系统
。
在被确定的情况下，可以取决于
iii)
每个帧潜在分布和先验帧潜在分布之间的差异来优化目标函数
。
先验对象潜在分布和先验帧潜在分布可以是相同的分布，例如单位高斯
。
[0010]上述方法的实现方式提供了一种经训练的视频对象表示神经网络系统
。
在一些应用中，一旦被训练，可能只需要系统的编码器部分，即从视频序列输入到被配置为确定对象和
(
可选地
)
帧潜在分布的部分的系统部分，可选地包括被配置为从这些分布中采样的部分
(
在其他实现方式中，可以例如从这些分布的平均值中导出信息
)。
在一些应用中，一旦经过训练，可能只需要系统的经训练的解码器部分，如后面所述，例如以生成
2D
或
3D
图像的视频序列
。
[0011]经训练的系统的实现方式提供该组对象潜在变量中的对象信息
。
例如，在实现方式中，这些实质上是可以区分的，即，使得不同的对象潜在变量对应于场景中对象的不同变化因素及其属性，诸如大小
、
颜色
、
例如在每个维度中的位置，以及运动
。
类似地，在实现方式中，不同的帧潜在变量可以区分视频序列的帧的不同全局属性，诸如，例如每个维度中的视点位置
。
稍后描述该方法和系统的更多优点
。
[0012]在实现方式中，每个空间编码包括图像帧的相应区域或“片”的特征图，即视觉特征图
。
处理图像帧以生成一组空间编码可以使用具有多个特征提取神经网络参数的特征提取神经网络，例如卷积神经网络，来为图像帧的每个区域生成特征图
。
训练系统可以包括调整特征提取神经网络参数的值
。
[0013]在实现方式中，使用具有多个图像帧解码器神经网络参数的图像帧解码器神经网络来处理确定的对象潜在变量
(
以及可选的帧潜在变量
)
的值，以生成解码的图像帧序列
。
训练系统然后可以包括调整图像帧解码器神经网络参数的值
。
[0014]在一些实现方式中，解码的图像帧序列包括一系列解码的图像帧时间步长中的每一个的图像帧
。...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种训练视频对象表示神经网络系统的计算机实现的方法，该视频对象表示神经网络系统包括自注意力神经网络，该自注意力神经网络包括一个或多个自注意力层并且具有多个自注意力神经网络参数，每个自注意力层被配置为在层输入上应用自注意力机制，该方法包括：获得包括
T
个图像帧的序列的视频序列，在一系列时间中的每一个时间处一个图像帧；处理每个图像帧以生成所述
T
个图像帧中的每个图像帧的一组
S
个空间编码，从而获得所述视频序列的
S
×
T
个空间编码的组，其中，图像帧的每个空间编码包括所述图像帧的相应区域的编码；通过在包括所述
S
×
T
个空间编码的组的层输入上应用所述自注意力机制来使用所述自注意力神经网络处理所述
S
×
T
个空间编码的组，以生成变换的空间编码的组，每个变换的空间编码对应于一个图像帧时间和一个图像帧区域，其中，在所述层输入上应用所述自注意力机制包括在不同图像帧的空间编码上应用所述自注意力机制；对于一组对象潜在变量中的每一个，通过在图像帧的时间上聚合变换的空间编码的组，确定用于参数化该对象潜在变量的对象潜在分布的一个或多个值；通过从所述对象潜在变量的对象潜在分布中采样来确定该组对象潜在变量中的每一个的值；处理确定的对象潜在变量的值，以生成解码的图像帧序列；以及通过至少调整所述自注意力神经网络参数的值，以取决于
i)T
个图像帧的序列和解码的图像帧序列之间的差异的度量，以及
ii)
每个对象潜在分布和先验对象潜在分布之间的差异来优化目标函数，来训练该系统
。2.
根据权利要求1所述的方法，还包括：通过在图像帧的区域上聚合变换的空间编码的组，为一组帧潜在变量中的每一个确定用于参数化该帧潜在变量的帧潜在分布的一个或多个值；通过从所述帧潜在变量的帧潜在分布中采样来确定该组帧潜在变量中的每一个的值；其中，生成解码的图像帧序列还包括处理确定的帧潜在变量的值以生成解码的图像帧序列
。3.
根据权利要求2所述的方法，其中，训练所述系统包括至少调整所述自注意力神经网络参数的值，以取决于每个帧潜在分布和先验帧潜在分布之间的差异来优化所述目标函数
。4.
根据任一前述权利要求所述的方法，其中，每个空间编码包括图像帧的相应区域的特征图，其中，处理每个图像帧以生成
T
个图像帧中的每一个图像帧的该组
S
个空间编码包括使用具有多个特征提取神经网络参数的特征提取神经网络来处理每个图像帧，以生成图像帧的每个区域的特征图；并且其中，训练该系统包括调整所述特征提取神经网络参数的值
。5.
根据任一前述权利要求所述的方法，包括使用具有多个图像帧解码器神经网络参数的图像帧解码器神经网络来处理确定的对象潜在变量的值，以生成所述解码的图像帧序列；和其中，训练该系统还包括调整所述图像帧解码器神经网络参数的值
。6.
根据权利要求5所述的方法，其中，所述解码的图像帧序列包括针对一系列解码的图
像帧时间步长中的每一个的图像帧，并且其中，使用图像帧解码器神经网络来生成解码的图像帧序列包括，针对每个解码的图像帧的每个像素和针对每个解码的图像帧时间步长：使用所述图像帧解码器神经网络处理确定的对象潜在变量的值
、
指定像素位置的信息，和指定时间步长的信息，以针对所述像素和所述时间步长确定每个对象潜在变量的像素分布的参数；组合每个对象潜在变量的像素分布，以确定组合的像素分布；和从组合的像素分布中采样，以确定针对所述像素和针对所述时间步长的值
。7.
根据权利要求6所述的方法，还包括，针对每个解码的图像帧的每个像素和针对每个解码的图像帧时间步长：使用所述图像帧解码器神经网络处理确定的对象潜在变量的值
、
指定像素位置的信息和指定时间步长的信息，以针对所述像素和所述时间步长确定每个对象潜在变量的混合权重；并且其中组合每个对象潜在变量的像素分布以确定组合的像素分布包括组合由相应混合权重加权的每个对象潜在变量的像素分布
。8.
根据权利要求
5、6
或7所述的方法，还包括：获得条件输入，该条件输入定义所述视频序列中的一个或多个对象或一个或多个对象的对象属性，或者定义视点位置或朝向；和向所述自注意力神经网络和所述图像帧解码器神经网络提供所述条件输入
。9.
根据任一前述权利要求所述的方法，其中，使用注意力神经网络处理所述
S
×
T
个空间编码的组包括使用所述一个或多个自注意力层之一来处理包括所述
S
×
T
个空间编码的组的层输入，以生成针对每个空间编码的查询和键
‑
值对，并且使用所述自注意力机制将所述查询应用于所述键
‑
值对，以确定变换的空间编码的组；并且其中，所述自注意力神经网络参数包括应用于所述层输入以生成所述查询和所述键
‑
值对的学习的变换的参数
。10.
根据任一前述权利要求所述的方法，其中，使用注意力神经网络处理所述
S
×
T
个空间编码的组包括：将所述
S
×
T
个空间编码的组作为所述层输入提供给注意力神经网络的第一自注意力层，以生成第一自注意力层输出；和将第一自注意力层输出提供给注意力神经网络的第二自注意力层，以生成所述变换的空间编码的组；包括将空间编码的数量从
S
×
T
个空间编码减少到
K
×
T
个空间编码，其中，
K
是对象潜在变量的数量，并且
K
小于
S。11.
根据权利要求
10
所述的方法，其中，所述减少包括在所述第一自注意力层输出上应用池化操作
。12.
根据任一前述权利要求所述的方法，其中，训练所述系统包括...

【专利技术属性】
技术研发人员：R，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人