System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于扩散模型的视频图像编辑的高效方法技术_技高网

一种基于扩散模型的视频图像编辑的高效方法技术

技术编号:40806496 阅读:17 留言:0更新日期:2024-03-28 19:30
本发明专利技术涉及视频图像编辑技术领域,尤其涉及一种基于扩散模型的视频图像编辑的高效方法,以视频数据作为输入,在隐空间进行扩散模型的训练,选取了图像的深度图作为结构信息、CL I P的图像编码器的图像嵌入作为内容信息;在推理阶段,首先提取输入视频各帧的深度图作为结构信息条件,用CL I P的文本编码器提取输入文本的文本嵌入,再利用先验模型将其映射为对应的图像嵌入作为内容信息条件,在隐空间进行条件扩散即可生成与原视频结构一致而内容与输入文本一致的新视频,通过引入时间层来进一步提升预训练的图像模型的性能,同时引入了一个结构和内容感知模型,旨在使编辑给定示例图像或文本的视频变得更加便捷。

【技术实现步骤摘要】

本专利技术涉及视频图像编辑,尤其涉及一种基于扩散模型的视频图像编辑的高效方法


技术介绍

1、在现代数字媒体时代,随着社交媒体和视频分享平台的迅速发展,视频内容的创造与编辑成为了日常生活的一部分。视频作为一种强有力的信息传播工具,对人们的沟通方式产生了深远影响。然而,尽管市场上有许多视频编辑工具可供使用,许多这类软件依旧存在用户体验不佳、编辑效率低下以及功能局限性等问题。特别是对于处理大规模或高分辨率视频内容,传统的编辑工具往往难以满足用户对于时效性和性能的要求。对此,最先进的机器学习技术,尤其是基于大型数据集训练的深度学习模型,为视频编辑带来了革命性的变化。

2、扩散模型,作为近年来人工智能领域的一大突破,已在图像合成领域展现出惊人的潜力。这些模型通过在多阶段生成过程中逐渐从随机噪声中构建图像,能够创造出逼真的视觉内容。与此同时,文本条件的生成模型如dalle 2和stable diffusion,以其用户友好的设计,允许用户通过简单的文本提示来生成高质量的图像,从而降低了艺术创作和内容生成的技术门槛。在视频编辑领域,隐扩散模型的应用,特别是它们在感知压缩空间进行图像合成的能力,为高效视频编辑带来了前所未有的可能性。通过这种方式,视频编辑工具可以在保持高质量输出的同时,显著提高数据处理速度。这一技术的进步,意味着在减少资源消耗和处理时间的同时,也能为用户提供更加直观且响应迅速的编辑体验。

3、随着5g建设的加速和元宇宙的持续发展,新兴入口如智能电视、vr/ar和智能车载等的快速发展一方面将推动云游戏行业的进一步成长,有望将云游戏大屏端打造成未来的家庭娱乐中心。另一方面,云游戏与直播、营销、网咖、教育、医疗等多元产业的融合加速,可实现多产业协同发展。然而,传统的云游戏模式对于网络环境有较高要求,且输出的内容相对固定,难以满足用户的需求和场景个性化生成视频内容。而一种先进的视觉模型的引入,可以有效改善有关困境。


技术实现思路

1、本专利技术的目的是为了解决上述现有技术中存在的缺点,而提供了一种基于扩散模型的视频图像编辑的高效方法,包括:

2、s1:输入无字幕的视频数据和文本数据,在隐空间进行扩散模型的训练,选择将所述输入视频各帧的深度图作为结构信息、将所述输入视频各帧通过clip的图像编码器进行编码后获取的图像嵌入作为内容信息;

3、s2:进入推理阶段,输入文本数据,提取所述输入视频各帧的深度图作为所述结构信息条件,通过所述clip的文本编码器提取出所述输入文本的文本嵌入,再利用先验模型将所述文本嵌入映射为对应的所述图像嵌入作为内容信息条件;

4、s3:在所述隐空间进行条件扩散生成与原视频结构一致而内容与输入文本一致的新视频。

5、进一步地,所述扩散模型学习反转一个固定的正向扩散过程,具体定义为:

6、

7、其中,在所述输入视频xt-1中缓慢加入正态分布的噪声得到xt,前向过程模拟一个固定的马尔科夫链,噪声依赖于方差调度βt,其中t∈{1,…,t},t为所述马尔科夫扩散链的总步数,x0:=x;

8、所述反向扩散过程为学习去噪的过程,根据以下带参数θ的方程来定义:

9、pθ(x0):=∫pθ(x0:t)dx1:t,

10、

11、

12、其中,使用固定方差∑θ(xt,t)学习反向过程μθ(xt,t)的均值,所述平均值μθ(xt,t)通过unet架构预测,接收噪声输入xt和扩散时步长t作为输入;

13、所述训练通常通过最大似然目标的重新加权变分界来执行,导致损失:

14、

15、其中,μt(xt,x0)是前向过程后验q(xt-1|xt,x0)的均值,可以用封闭形式表示。

16、优选地,所述在所述隐空间中进行所述扩散模型的训练即为将所述扩散模型带入所述隐空间,定义为隐扩散模型,在所述扩散模型的压缩学习阶段和生成学习阶段之间提供分离,具体包括:

17、所述隐扩散模型使用自编码器ε和自解码器d,其中,所述自编码器ε根据将所述输入视频映射到较低维度的隐代码,而所述自解码器d根据将所述隐代码转换回输入空间以便感知。

18、进一步地,在步骤s2中,所述扩散模型的条件扩散具体包括:

19、前向过程q保持不变,而所述结构信息条件变量s,所述内容信息条件变量c成为模型的附加输入,选择在所述无字幕的输入视频数据上进行训练,从所述训练视频x本身推导出所述结构信息和所述内容信息表示,即s=s(x)和c=c(x),导致每例损失为:

20、λt||μt(ε(x)t,ε(x)0)-μθ(ε(x)t,t,s(x),c(x))|2;

21、在步骤s2的所述推理过程中,所述结构信息条件变量s和所述内容信息条件变量c分别来自所述输入视频y和所述输入文本t,对s(y)和c(t)为条件的生成模型进行抽样,得到y的编辑版本x:

22、

23、更优地,所述自编码器ε映射到较低纬度的隐代码具体包括:

24、所述自编码器ε对所述输入视频各帧图像进行8倍下采样,并输出4个通道得到所述隐代码,使所述隐扩散模型在更小的表示上运行。

25、进一步地,在步骤s1的所述训练过程中,通过大规模图像数据集的训练获得更好的泛化效果,为此,通过使用unet模型实现引入时间层来扩展图像架构,所述unet模型包括残差块、变压器块和时序转换块,所述时间层仅对所述输入视频有效,所述引入时间层具体包括:

26、添加随时间的一维卷积和随时间的一维自关注并将其扩展到所述输入视频中,在每个所述残差块中,在每个二维卷积之后引入一个时间卷积;

27、同时,在每个空间二维的所述变压器块后包括一个时间一维的所述变压器块,所述一维变压器块沿着时间轴模仿其空间对应物;

28、将所述输入视频各帧索引的可学习位置编码输入到所述时序转换块中。

29、进一步地,在步骤s1中,在所述训练过程中,

30、使用clip对所述输入视频中的随机帧进行编码,保证在对语义和风格属性敏感的基础上同时对几何属性的更改不变性;

31、同时,训练一个所述先验模型支持基于文本的推理编辑,所述先验模型允许从所述文本嵌入中采样所述图像嵌入。

32、进一步地,在所述结构信息和所述内容信息获取过程中,所述深度图提供在所述结构信息和所述内容信息之间的分离表示,所述深度图在编码内容少的基础上揭示所述视频各帧图像中物体的轮廓,防止涉及物体形状变化的内容编辑。

33、进一步地,在步骤s1的所述训练过程中,模糊所述输入文本的结构信息的深度估计,并对所述输入文本的结构信息的深度估计进行下采样;然后在步骤s2的所述推理过程中控制所述输入文本的结构信息实现不同的视频编辑效果。

34、1、进一步地,在步骤s1中,所述深度图通过如下步骤获取:

35、s1本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的视频图像编辑的高效方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述扩散模型学习反转一个固定的正向扩散过程,具体定义为:

3.根据权利要求2所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述在所述隐空间中进行所述扩散模型的训练即为将所述扩散模型带入所述隐空间,定义为隐扩散模型,在所述扩散模型的压缩学习阶段和生成学习阶段之间提供分离,具体包括:

4.根据权利要求3所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤S3中,所述扩散模型的条件扩散具体包括:

5.根据权利要求3所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述自编码器ε映射到较低纬度的隐代码具体包括:

6.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤S1的所述训练过程中,通过大规模图像数据集的训练获得更好的泛化效果,为此,通过使用UNet模型实现引入时间层来扩展图像架构,所述UNet模型包括残差块、变压器块和时序转换块,所述时间层仅对所述输入视频有效,所述引入时间层具体包括:

7.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤S1中,在所述训练过程中,

8.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在所述结构信息和所述内容信息获取过程中,所述深度图提供在所述结构信息和所述内容信息之间的分离表示,所述深度图在编码内容少的基础上揭示所述视频各帧图像中物体的轮廓,防止涉及物体形状变化的内容编辑。

9.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤S1的所述训练过程中,模糊所述输入文本的结构信息的深度估计,并对所述输入文本的结构信息的深度估计进行下采样;然后在步骤S2的所述推理过程中控制所述输入文本的结构信息实现不同的视频编辑效果。

10.根据权利要求5或9所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤S1中,所述深度图通过如下步骤获取:

11.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,

12.根据权利要求6或11所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述交叉注意的调节使用所述UNet模型的空间转换块来进行,具体包括两个所述注意操作:首先执行空间自注意,然后执行从所述图像嵌入计算的键和值的交叉注意。

...

【技术特征摘要】

1.一种基于扩散模型的视频图像编辑的高效方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述扩散模型学习反转一个固定的正向扩散过程,具体定义为:

3.根据权利要求2所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述在所述隐空间中进行所述扩散模型的训练即为将所述扩散模型带入所述隐空间,定义为隐扩散模型,在所述扩散模型的压缩学习阶段和生成学习阶段之间提供分离,具体包括:

4.根据权利要求3所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤s3中,所述扩散模型的条件扩散具体包括:

5.根据权利要求3所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述自编码器ε映射到较低纬度的隐代码具体包括:

6.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤s1的所述训练过程中,通过大规模图像数据集的训练获得更好的泛化效果,为此,通过使用unet模型实现引入时间层来扩展图像架构,所述unet模型包括残差块、变压器块和时序转换块,所述时间层仅对所述输入视频有效,所述引入时间层具体包括:

7.根据权利要求1所述的基于扩散模型的...

【专利技术属性】
技术研发人员:张青青王晓飞
申请(专利权)人:派欧云计算上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1