一种基于扩散模型的视频图像编辑的高效方法技术

技术编号:40806496 阅读:20 留言:0更新日期:2024-03-28 19:30
本发明专利技术涉及视频图像编辑技术领域,尤其涉及一种基于扩散模型的视频图像编辑的高效方法,以视频数据作为输入,在隐空间进行扩散模型的训练,选取了图像的深度图作为结构信息、CL I P的图像编码器的图像嵌入作为内容信息;在推理阶段,首先提取输入视频各帧的深度图作为结构信息条件,用CL I P的文本编码器提取输入文本的文本嵌入,再利用先验模型将其映射为对应的图像嵌入作为内容信息条件,在隐空间进行条件扩散即可生成与原视频结构一致而内容与输入文本一致的新视频,通过引入时间层来进一步提升预训练的图像模型的性能,同时引入了一个结构和内容感知模型,旨在使编辑给定示例图像或文本的视频变得更加便捷。

【技术实现步骤摘要】

本专利技术涉及视频图像编辑,尤其涉及一种基于扩散模型的视频图像编辑的高效方法


技术介绍

1、在现代数字媒体时代,随着社交媒体和视频分享平台的迅速发展,视频内容的创造与编辑成为了日常生活的一部分。视频作为一种强有力的信息传播工具,对人们的沟通方式产生了深远影响。然而,尽管市场上有许多视频编辑工具可供使用,许多这类软件依旧存在用户体验不佳、编辑效率低下以及功能局限性等问题。特别是对于处理大规模或高分辨率视频内容,传统的编辑工具往往难以满足用户对于时效性和性能的要求。对此,最先进的机器学习技术,尤其是基于大型数据集训练的深度学习模型,为视频编辑带来了革命性的变化。

2、扩散模型,作为近年来人工智能领域的一大突破,已在图像合成领域展现出惊人的潜力。这些模型通过在多阶段生成过程中逐渐从随机噪声中构建图像,能够创造出逼真的视觉内容。与此同时,文本条件的生成模型如dalle 2和stable diffusion,以其用户友好的设计,允许用户通过简单的文本提示来生成高质量的图像,从而降低了艺术创作和内容生成的技术门槛。在视频编辑领域,隐扩散模型的应用,特别是本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的视频图像编辑的高效方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述扩散模型学习反转一个固定的正向扩散过程,具体定义为:

3.根据权利要求2所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述在所述隐空间中进行所述扩散模型的训练即为将所述扩散模型带入所述隐空间,定义为隐扩散模型,在所述扩散模型的压缩学习阶段和生成学习阶段之间提供分离,具体包括:

4.根据权利要求3所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤S3中,所述扩散模型的条件扩散具体包括...

【技术特征摘要】

1.一种基于扩散模型的视频图像编辑的高效方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述扩散模型学习反转一个固定的正向扩散过程,具体定义为:

3.根据权利要求2所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述在所述隐空间中进行所述扩散模型的训练即为将所述扩散模型带入所述隐空间,定义为隐扩散模型,在所述扩散模型的压缩学习阶段和生成学习阶段之间提供分离,具体包括:

4.根据权利要求3所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤s3中,所述扩散模型的条件扩散具体包括:

5.根据权利要求3所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,所述自编码器ε映射到较低纬度的隐代码具体包括:

6.根据权利要求1所述的基于扩散模型的视频图像编辑的高效方法,其特征在于,在步骤s1的所述训练过程中,通过大规模图像数据集的训练获得更好的泛化效果,为此,通过使用unet模型实现引入时间层来扩展图像架构,所述unet模型包括残差块、变压器块和时序转换块,所述时间层仅对所述输入视频有效,所述引入时间层具体包括:

7.根据权利要求1所述的基于扩散模型的...

【专利技术属性】
技术研发人员:张青青王晓飞
申请(专利权)人:派欧云计算上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1