一种基于LCM-LoRA的实时视频转绘方法技术

技术编号：40901407 阅读：4 留言：0更新日期：2024-04-18 11:19

本发明专利技术公开一种基于LCM‑LoRA的实时视频转绘方法，包括以下步骤：S1：对获取的实时画面内容进行拆帧；S2：采用LCM‑LoRA加速模块实现实时的Stable Diffusion画面绘制，将拆帧的画面进行特定风格的重绘；S3：将重绘后的画面进行拼帧，拼接成视频；所述LCM为潜在一致性模型；在步骤S2中，LCM‑LoRA加速模块为：通过对预训练的Stable Diffusion进行参数微调获得潜在一致性模型，所述参数微调基于参数效率高的微调技术：LoRA微调加速技术。本发明专利技术采用的潜在一致性模型，可以在任何预训练的LDM上以最少的步骤进行快速推理，包括稳定扩散，实现实时转绘。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及云计算，尤其涉及一种基于lcm-lora的实时视频转绘方法。

技术介绍

1、stable diffusion使用一种扩散模型(dm)，称为潜在扩散模型(ldm)。扩散模型于2015年推出，旨在消除训练图像上高斯噪声的连续应用，这可以被认为是一系列去噪自动编码器。stable diffusion由3部分组成：变分自动编码器(vae)、u-net和可选的文本编码器。vae编码器将图像从像素空间压缩到更小维的潜在空间，从而捕获图像更基本的语义含义。高斯噪声被迭代应用于前向扩散过程中的压缩潜在表示。u-net模块由resnet主干网组成，对前向扩散的输出进行向后去噪以获得潜在表示。最后，vae解码器通过将表示转换回像素空间来生成最终图像。去噪步骤可以灵活地以文本字符串、图像或其他模态为条件。编码的条件数据通过交叉注意力机制暴露给去噪的u-net。对于文本的调节，使用固定的预训练clip vit-l/14文本编码器将文本提示转换为嵌入空间。

2、扩散模型通过向训练数据添加噪声，然后逆转这一过程来生成高质量图像。然而，扩散模型生成图片需要进行多步采样，这一过程相对较慢，增加了推理成本。缓慢的多步采样问题是部署这类模型时的主要瓶颈。

3、因此，现有技术存在缺陷，需要改进。

技术实现思路

1、本专利技术要解决的技术问题是：提供一种基于lcm-lora的实时视频转绘方法，提升转绘速度，实现实时视频转绘。

2、本专利技术的技术方案如下：提供一种基于lc

3、s1：对获取的实时画面内容进行拆帧。

4、s2：采用lcm-lora加速模块实现实时的stable diffusion画面绘制，将拆帧的画面进行特定风格的重绘。lcm为潜在一致性模型。

5、s3：将重绘后的画面进行拼帧，拼接成视频。

6、在步骤s2中，lcm-lora加速模块为：通过对预训练的stable diffusion进行参数微调获得潜在一致性模型，所述参数微调基于参数效率高的微调技术：lora微调加速技术。

7、使用latent consistency distillation(lcd)方法，利用预训练的自动编码器的潜在空间来提炼引导扩散模型为latent consistency models(lcm)。这个过程包括解决增强概率流问题，以确保生成的样本遵循高质量图像的轨迹，同时显著减少所需的采样步骤。

8、在使用latent consistency distillation方法过程中，引入lora微调加速技术，lora微调加速技术通过将参数矩阵分解为两个低秩矩阵，从而显著减少可训练参数的数量，降低内存需求。这一步骤使得在lcm的提炼过程中，可以使用lora技术来减少可训练参数的数量。

9、lcm-lora加速模块可以直接与在特定风格数据集上微调的lora参数相结合，从而实现在特定风格下进行图像生成的能力，无需进一步训练。这种组合可以通过线性组合来实现，而不需要额外的训练。

10、步骤s1-s3均由服务器来实现，所述实时画面从客户端的摄像头或屏幕捕捉。

11、所述基于lcm-lora的实时视频转绘方法，还包括：s4：服务器通过网络将拼接后的重绘视频传输回客户端，实现实时的视频转绘。

12、采用上述方案，本专利技术提供一种基于lcm-lora的实时视频转绘方法；潜在扩散模型(ldm)在合成高分辨率图像方面取得了显著的成果。采用潜在一致性模型(lcm)，可以在任何预训练的ldm上以最少的步骤进行快速推理，包括稳定扩散，实现实时转绘。高质量的768x 768图片经过2～4步lcm从预先训练的无分类器引导扩散模型中高效提炼出来，只需32个a100 gpu小时即可进行训练。

本文档来自技高网...

【技术保护点】

1.一种基于LCM-LoRA的实时视频转绘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于LCM-LoRA的实时视频转绘方法，其特征在于，使用Latent Consistency Distillation方法，利用预训练的自动编码器的潜在空间来提炼引导扩散模型为Latent Consistency Models；

3.根据权利要求1所述的一种基于LCM-LoRA的实时视频转绘方法，其特征在于，LCM-LoRA加速模块可以直接与在特定风格数据集上微调的LoRA参数相结合，从而实现在特定风格下进行图像生成的能力，无需进一步训练。

4.根据权利要求1所述的一种基于LCM-LoRA的实时视频转绘方法，其特征在于，步骤S1-S3均由服务器来实现，所述实时画面从客户端的摄像头或屏幕捕捉。

5.根据权利要求4所述的一种基于LCM-LoRA的实时视频转绘方法，其特征在于，还包括：S4：服务器通过网络将拼接后的重绘视频传输回客户端，实现实时的视频转绘。

【技术特征摘要】

1.一种基于lcm-lora的实时视频转绘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于lcm-lora的实时视频转绘方法，其特征在于，使用latent consistency distillation方法，利用预训练的自动编码器的潜在空间来提炼引导扩散模型为latent consistency models；

3.根据权利要求1所述的一种基于lcm-lora的实时视频转绘方法，其特征在于，lcm-lora加...

【专利技术属性】
技术研发人员：石麟瑞，高斌，邹琼，周双全，
申请(专利权)人：深圳市瑞云科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人