System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 使用潜在扩散模型生成视频制造技术_技高网

使用潜在扩散模型生成视频制造技术

技术编号:41395304 阅读:4 留言:0更新日期:2024-05-20 19:18
本公开提供了使用潜在扩散机器学习模型来生成视频的系统和方法。给定文本输入,可以使用潜在扩散模型来生成与文本输入相关的视频数据。该处理包括使用经由变化的自动编码器在潜在空间内执行的文本到图像生成任务来生成预定数量的关键帧,从而与基于像素空间的扩散模型相比,使得能够更快地进行训练和采样时间。该处理还包括利用二维卷积和相关联的适配器来学习给定帧的特征。帧的时间信息可以经由定向时间注意力模块来学习,该模块用于捕获帧之间的关系并生成时间上有意义的帧序列。可以经由用于在两个生成的帧之间插入一个或多个过渡帧的帧插值处理来生成附加帧。该处理还可以包括用于对帧进行上采样的超分辨率处理。

【技术实现步骤摘要】


技术介绍

1、生成模型可以在各种应用中实现,诸如图像到文本生成、样式迁移、图像到图像转换以及文本到三维(3d)对象生成。最近关于文本到图像生成的研究表明,大型生成模型在大型数据集上进行预训练之后,能够生成与给定文本提示高度匹配的逼真内容。这些生成模型的一个子类包括扩散模型,其能够实现更多样化的生成内容并能够扩展到大模型大小和大型数据集。


技术实现思路

1、公开了与使用潜在扩散机器学习模型的视频生成相关的示例。给定文本输入,与文本输入相关的视频数据可以使用潜在扩散模型来生成。该处理包括使用经由变化自动编码器在潜在空间内执行的文本到图像生成任务来生成预定数量的关键帧,从而与基于像素空间的扩散模型相比,使得能够更快地进行训练和采样时间。该处理还包括利用二维卷积和相关联的适配器来学习针对给定帧的特征。针对帧的时间信息可以经由定向时间注意力模块来学习,该模块用于捕获帧之间的关系并且用于生成时间上有意义的帧序列。可以经由用于在两个生成的帧之间插入一个或多个过渡帧的帧插值处理来生成附加帧。该处理还可以包括用于对帧进行上采样的超分辨率处理。

2、本
技术实现思路
被提供以通过简化的形式介绍概念的选例,其将在下面的具体实施方式中进一步被描述。本
技术实现思路
并不旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决本公开的任何部分中指出的任何或所有缺点的实施方式。

【技术保护点】

1.一种用于与输入文本对应的视频生成的计算系统,所述计算系统包括:

2.根据权利要求1所述的计算系统,其中所述处理器还被配置为:对经插值的所述多个关键帧进行上采样。

3.根据权利要求2所述的计算系统,其中对经插值的所述多个关键帧进行上采样包括使用超分辨率模型。

4.根据权利要求1所述的计算系统,其中所述潜在扩散模型包括二维空间中的多个卷积算子。

5.根据权利要求4所述的计算系统,其中所述潜在扩散模型包括针对二维空间中的所述多个卷积算子中的每个卷积算子的唯一适配器。

6.根据权利要求1所述的计算系统,其中所述潜在扩散模型包括定向时间自注意力模块。

7.根据权利要求6所述的计算系统,其中所述多个关键帧使用所述定向时间自注意力模块而被生成,使得关键帧基于先前帧而被计算,其中所述先前帧不受将来帧的影响。

8.根据权利要求1所述的计算系统,其中对所述多个关键帧进行插值包括:生成过渡帧并将其插入在所述多个关键帧中的两个相邻关键帧之间。

9.根据权利要求1所述的计算系统,其中对所述多个关键帧进行插值包括:生成多个过渡帧并将其插入在所述多个关键帧中的两个相邻关键帧之间。

10.根据权利要求1所述的计算系统,其中对所述多个关键帧进行插值包括:以多个预定迭代,递归地生成过渡帧并将其插入在所述多个关键帧中的每两个相邻关键帧之间。

11.一种用于与输入文本对应的视频生成的计算机化方法,所述方法包括:

12.根据权利要求11所述的方法,还包括:对所述经插值的所述多个关键帧进行上采样。

13.根据权利要求11所述的方法,其中所述潜在扩散模型包括二维空间中的多个卷积算子。

14.根据权利要求13所述的方法,其中所述潜在扩散模型包括针对二维空间中的所述多个卷积算子中的每个卷积算子的唯一适配器。

15.根据权利要求11所述的方法,其中所述潜在扩散模型包括定向时间自注意力模块。

16.根据权利要求15所述的方法,其中所述多个关键帧使用所述定向时间自注意力模块而被生成,使得关键帧基于先前帧而被计算,其中所述先前帧不受将来帧的影响。

17.根据权利要求11所述的方法,其中对所述多个关键帧进行插值包括:生成过渡帧并将其插入在所述多个关键帧中的两个相邻关键帧之间。

18.根据权利要求11所述的方法,其中对所述多个关键帧进行插值包括:生成多个过渡帧并将其插入在所述多个关键帧中的两个相邻关键帧之间。

19.根据权利要求11所述的方法,其中对所述多个关键帧进行插值包括:以多个预定迭代,递归地生成过渡帧并将其插入在所述多个关键帧中的每两个相邻关键帧之间。

20.一种用于与输入文本对应的视频生成的计算系统,所述计算系统包括:

...

【技术特征摘要】

1.一种用于与输入文本对应的视频生成的计算系统,所述计算系统包括:

2.根据权利要求1所述的计算系统,其中所述处理器还被配置为:对经插值的所述多个关键帧进行上采样。

3.根据权利要求2所述的计算系统,其中对经插值的所述多个关键帧进行上采样包括使用超分辨率模型。

4.根据权利要求1所述的计算系统,其中所述潜在扩散模型包括二维空间中的多个卷积算子。

5.根据权利要求4所述的计算系统,其中所述潜在扩散模型包括针对二维空间中的所述多个卷积算子中的每个卷积算子的唯一适配器。

6.根据权利要求1所述的计算系统,其中所述潜在扩散模型包括定向时间自注意力模块。

7.根据权利要求6所述的计算系统,其中所述多个关键帧使用所述定向时间自注意力模块而被生成,使得关键帧基于先前帧而被计算,其中所述先前帧不受将来帧的影响。

8.根据权利要求1所述的计算系统,其中对所述多个关键帧进行插值包括:生成过渡帧并将其插入在所述多个关键帧中的两个相邻关键帧之间。

9.根据权利要求1所述的计算系统,其中对所述多个关键帧进行插值包括:生成多个过渡帧并将其插入在所述多个关键帧中的两个相邻关键帧之间。

10.根据权利要求1所述的计算系统,其中对所述多个关键帧进行插值包括:以多个预定迭代,递归地生成过渡帧并将其插入在所述多个关键帧中的每两个相邻...

【专利技术属性】
技术研发人员:王伟民周大权冯佳时
申请(专利权)人:脸萌有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1