System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于LCM-LoRA的实时视频转绘方法技术_技高网

一种基于LCM-LoRA的实时视频转绘方法技术

技术编号:40901407 阅读:4 留言:0更新日期:2024-04-18 11:19
本发明专利技术公开一种基于LCM‑LoRA的实时视频转绘方法,包括以下步骤:S1:对获取的实时画面内容进行拆帧;S2:采用LCM‑LoRA加速模块实现实时的Stable Diffusion画面绘制,将拆帧的画面进行特定风格的重绘;S3:将重绘后的画面进行拼帧,拼接成视频;所述LCM为潜在一致性模型;在步骤S2中,LCM‑LoRA加速模块为:通过对预训练的Stable Diffusion进行参数微调获得潜在一致性模型,所述参数微调基于参数效率高的微调技术:LoRA微调加速技术。本发明专利技术采用的潜在一致性模型,可以在任何预训练的LDM上以最少的步骤进行快速推理,包括稳定扩散,实现实时转绘。

【技术实现步骤摘要】

本专利技术涉及云计算,尤其涉及一种基于lcm-lora的实时视频转绘方法。


技术介绍

1、stable diffusion使用一种扩散模型(dm),称为潜在扩散模型(ldm)。扩散模型于2015年推出,旨在消除训练图像上高斯噪声的连续应用,这可以被认为是一系列去噪自动编码器。stable diffusion由3部分组成:变分自动编码器(vae)、u-net和可选的文本编码器。vae编码器将图像从像素空间压缩到更小维的潜在空间,从而捕获图像更基本的语义含义。高斯噪声被迭代应用于前向扩散过程中的压缩潜在表示。u-net模块由resnet主干网组成,对前向扩散的输出进行向后去噪以获得潜在表示。最后,vae解码器通过将表示转换回像素空间来生成最终图像。去噪步骤可以灵活地以文本字符串、图像或其他模态为条件。编码的条件数据通过交叉注意力机制暴露给去噪的u-net。对于文本的调节,使用固定的预训练clip vit-l/14文本编码器将文本提示转换为嵌入空间。

2、扩散模型通过向训练数据添加噪声,然后逆转这一过程来生成高质量图像。然而,扩散模型生成图片需要进行多步采样,这一过程相对较慢,增加了推理成本。缓慢的多步采样问题是部署这类模型时的主要瓶颈。

3、因此,现有技术存在缺陷,需要改进。


技术实现思路

1、本专利技术要解决的技术问题是:提供一种基于lcm-lora的实时视频转绘方法,提升转绘速度,实现实时视频转绘。

2、本专利技术的技术方案如下:提供一种基于lcm-lora的实时视频转绘方法,包括以下步骤。

3、s1:对获取的实时画面内容进行拆帧。

4、s2:采用lcm-lora加速模块实现实时的stable diffusion画面绘制,将拆帧的画面进行特定风格的重绘。lcm为潜在一致性模型。

5、s3:将重绘后的画面进行拼帧,拼接成视频。

6、在步骤s2中,lcm-lora加速模块为:通过对预训练的stable diffusion进行参数微调获得潜在一致性模型,所述参数微调基于参数效率高的微调技术:lora微调加速技术。

7、使用latent consistency distillation(lcd)方法,利用预训练的自动编码器的潜在空间来提炼引导扩散模型为latent consistency models(lcm)。这个过程包括解决增强概率流问题,以确保生成的样本遵循高质量图像的轨迹,同时显著减少所需的采样步骤。

8、在使用latent consistency distillation方法过程中,引入lora微调加速技术,lora微调加速技术通过将参数矩阵分解为两个低秩矩阵,从而显著减少可训练参数的数量,降低内存需求。这一步骤使得在lcm的提炼过程中,可以使用lora技术来减少可训练参数的数量。

9、lcm-lora加速模块可以直接与在特定风格数据集上微调的lora参数相结合,从而实现在特定风格下进行图像生成的能力,无需进一步训练。这种组合可以通过线性组合来实现,而不需要额外的训练。

10、步骤s1-s3均由服务器来实现,所述实时画面从客户端的摄像头或屏幕捕捉。

11、所述基于lcm-lora的实时视频转绘方法,还包括:s4:服务器通过网络将拼接后的重绘视频传输回客户端,实现实时的视频转绘。

12、采用上述方案,本专利技术提供一种基于lcm-lora的实时视频转绘方法;潜在扩散模型(ldm)在合成高分辨率图像方面取得了显著的成果。采用潜在一致性模型(lcm),可以在任何预训练的ldm上以最少的步骤进行快速推理,包括稳定扩散,实现实时转绘。高质量的768x 768图片经过2~4步lcm从预先训练的无分类器引导扩散模型中高效提炼出来,只需32个a100 gpu小时即可进行训练。

本文档来自技高网...

【技术保护点】

1.一种基于LCM-LoRA的实时视频转绘方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于LCM-LoRA的实时视频转绘方法,其特征在于,使用Latent Consistency Distillation方法,利用预训练的自动编码器的潜在空间来提炼引导扩散模型为Latent Consistency Models;

3.根据权利要求1所述的一种基于LCM-LoRA的实时视频转绘方法,其特征在于,LCM-LoRA加速模块可以直接与在特定风格数据集上微调的LoRA参数相结合,从而实现在特定风格下进行图像生成的能力,无需进一步训练。

4.根据权利要求1所述的一种基于LCM-LoRA的实时视频转绘方法,其特征在于,步骤S1-S3均由服务器来实现,所述实时画面从客户端的摄像头或屏幕捕捉。

5.根据权利要求4所述的一种基于LCM-LoRA的实时视频转绘方法,其特征在于,还包括:S4:服务器通过网络将拼接后的重绘视频传输回客户端,实现实时的视频转绘。

【技术特征摘要】

1.一种基于lcm-lora的实时视频转绘方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于lcm-lora的实时视频转绘方法,其特征在于,使用latent consistency distillation方法,利用预训练的自动编码器的潜在空间来提炼引导扩散模型为latent consistency models;

3.根据权利要求1所述的一种基于lcm-lora的实时视频转绘方法,其特征在于,lcm-lora加...

【专利技术属性】
技术研发人员:石麟瑞高斌邹琼周双全
申请(专利权)人:深圳市瑞云科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1