自回归视频生成神经网络制造技术

技术编号:31502922 阅读:76 留言:0更新日期:2021-12-22 23:27
描述了一种用于生成视频的方法。该方法包括:生成包括多个帧的初始输出视频,帧中的每个具有多个通道;识别初始输出视频成为根据特定切片次序索引的通道切片的集合的分区,每个通道切片是来自通道堆叠的集合的通道堆叠的下采样;为通道堆叠集合中的每个通道堆叠初始化完全生成的通道切片的集合;使用编码器和解码器对当前输出视频进行重复处理以生成下一个完全生成的通道切片以添加到完全生成的通道切片的当前集合;对于通道索引中的每个,使用相应的完全生成的通道切片生成相应的完全生成的通道堆叠;以及使用完全生成的通道堆叠生成完全生成的输出视频。生成完全生成的输出视频。生成完全生成的输出视频。

【技术实现步骤摘要】
【国外来华专利技术】自回归视频生成神经网络
[0001]本申请是2019年5月23日提交的美国临时专利申请No.62/852,271的非临时申请并要求其优先权,其全部内容通过引用并入本文。


[0002]本说明书涉及用于视频生成的神经网络系统。

技术介绍

[0003]神经网络是机器学习模型,其采用一层或多层非线性单元来预测接收到的输入的输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层,即,下一隐藏层或输出层的输入。网络的每一层根据相应的参数集合的当前值从接收的输入生成输出。

技术实现思路

[0004]本说明书描述了一种作为计算机程序实现在一个或多个位置中的一个或多个计算机上的神经网络系统,所述计算机实现用于高效视频生成的视频生成神经网络系统。
[0005]能够在特定实施例中实现本说明书中描述的主题以便实现以下优点中的一个或多个。由于需要产生的大量像素及其联合分布的巨大复杂性,视频的生成是有挑战性的任务。本说明书中描述的自回归视频神经网络能够结合块局部自注意力机制的高效实现方式通过迭代地生成子缩放视本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成视频的计算机实现的方法,所述方法包括:生成包括多个帧的初始输出视频,其中所述帧中的每个帧具有多个通道,每个通道是二维图像并且由来自所述初始输出视频的通道索引的集合的相应通道索引来索引,并且其中,对于每个通道,所述通道中的每个像素被分配预定的像素值或填充有空白像素;识别所述初始输出视频成为根据特定切片次序索引的通道切片的集合的分区,其中每个通道切片是来自通道堆叠的集合的通道堆叠的下采样,并且其中所述集合中的每个通道堆叠对应于相应的通道索引并且是根据时间具有所述相应的通道索引的通道的堆叠;为所述通道堆叠的集合中的每个通道堆叠初始化完全生成的通道切片的集合;根据所述特定切片次序重复地执行以下操作:使用编码器神经网络处理当前输出视频,所述当前输出视频包括所有通道堆叠的完全生成的通道切片的当前集合,以生成编码的调节通道切片,使用解码器神经网络处理所述编码的调节通道切片以生成下一个完全生成的通道切片,以及将所述下一个完全生成的通道切片添加到所述通道堆叠的完全生成的通道切片的当前集合中;对于所述通道索引中的每个通道索引,使用相应的完全生成的通道切片生成相应的完全生成的通道堆叠;以及使用为所述通道索引生成的所述完全生成的通道堆叠来生成完全生成的输出视频。2.根据权利要求1所述的方法,其中,所述编码器神经网络包括3D编码器卷积层后面跟随多个编码自注意力层,其中每个编码自注意力层包括:编码器层

归一化层、块自注意力层和一个或多个编码器前馈层。3.根据权利要求1或权利要求2所述的方法,其中,所述解码器神经网络包括3D解码器卷积层后面跟随多个解码自注意力层,其中每个解码自注意力层包括:解码器层

归一化层、掩膜的块自注意力层和一个或多个解码器前馈层。4.根据权利要求2所述的方法,其中,对于每个通道堆叠,使用所述编码器神经网络处理所有通道堆叠的完全生成的通道切片的当前集合以生成所述编码的调节通道切片包括:使用所有通道堆叠的完全生成的通道切片的所述当前集合来生成部分掩膜视频,其中仅来自完全生成的通道切片的所述当前集合的像素在所述部分掩膜视频中可见,通过将所述部分掩膜视频与所有通道的像素强度的单热编码级联,生成嵌入的部分掩膜视频,使用所述3D编码器卷积层处理所述嵌入的部分掩膜视频以生成下采样的编码视频,在所述下采样的编码视频上应用卷积填充以生成填充的下采样编码视频,将位置嵌入附加到所述填充的下采样的编码视频以生成初始编码器表示,使用到隐藏大小的线性投影将所述初始编码器表示变换成中间编码器表示,以及使用所述多个编码自注意力层处理所述中间编码器表示以生成所述编码的调节通道切片。5.根据权利要求4所述的方法,其中,使用所述解码器神经网络处理所述编码的调节通道切片以生成所述下一个完全生成的通道切片包括:通过对每个像素的所有通道嵌入求和来嵌入所述编码的调节通道切片以生成嵌入的
通道切片,使用所述3D解码器卷积层在所述嵌入的...

【专利技术属性】
技术研发人员:奥斯卡
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1