风格化数字人视频生成方法、电子设备和存储介质技术

技术编号：43867190 阅读：21 留言：0更新日期：2024-12-31 18:53

本申请提供一种风格化数字人视频生成方法、电子设备和存储介质。属于图像处理技术领域，所述方法包括：接收风格化数字人视频生成指令，风格化数字人视频生成指令包括用户照片、目标风格化类型以及配音文件；根据目标风格化类型，将用户照片转化为目标风格化图像；将目标风格化图像和配音文件输入预训练的口型驱动模型，其中，预训练好的口型驱动模型提取目标风格化图像的身份特征以及配音文件的音频特征，并根据身份特征和音频特征生成风格化数字人视频；获取预训练的口型驱动模型输出的风格化数字人视频，风格化数字人视频的口型驱动与配音文件同步。本申请还能够提供更加个性化、实时性和高质量的风格化数字人视频。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，尤其涉及一种风格化数字人视频生成方法、电子设备和存储介质。

技术介绍

1、随着人工智能技术的迅猛发展，图像处理和视频生成技术取得了显著的进步。这一进展催生了数字人口型驱动视频技术，该技术通过将音频信号转化为对应的口型动画，并应用于数字人形象，生成高度逼真和互动性强的视频内容。然而，随着用户需求的多样化和应用场景的复杂化，追求精准还原而非风格化表现的传统的数字人口型驱动技术，难以应用于需要赋予数字人独特风格的特定场景。

2、为了实现将风格化元素融入数字人口型驱动视频，现有技术主要分为两类方法。第一类方法是事先制作好风格化的数字人形象供用户选择，然后使用非实时的口型驱动技术，将用户的语音或文字输入转化为数字人的口型动画。这种方式的数字人形象由于是事先制作好的，灵活性较差，无法完全符合每个用户的个性化需求，且视频生成的实时性较差。第二类方法则需要用户将自己打扮成对应的风格，然后录制视频，再通过图像处理技术将录制的视频转换为数字人视频。这种方法虽然能够提供高度个性化的结果，但其实现过程较为繁琐，需要用户投入大量时...

【技术保护点】

1.一种风格化数字人视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的风格化数字人视频生成方法，其特征在于，所述口型驱动模型包括生成器网络和判别器网络，所述判别器网络包括口型同步判别器，在所述将所述目标风格化图像和所述配音文件输入预训练的口型驱动模型之前，还包括：

3.根据权利要求2所述的风格化数字人视频生成方法，其特征在于，所述判别器网络还包括视觉质量判别器，在所述通过掩蔽所述重建目标帧的口型部分，训练所述生成器网络基于被掩蔽口型部分的所述重建目标帧生成重建图像帧之后，还包括：

4.根据权利要求2所述的风格化数字人视频生成方法，其特征...

【技术特征摘要】

1.一种风格化数字人视频生成方法，其特征在于，所述方法包括：

4.根据权利要求2所述的风格化数字人视频生成方法，其特征在于，所述通过所述各个风格化类型的数字人口型驱动视频，训练所述口型同步判别器对口型与音频的同步性的评估能力，包括：

5.根据权利要求4所述的风格化数字人视频生成方法，其特征在于，所述通过所述匹配对，训练所述口型同步判别器对口型与音频的同步性的评估能力，包括：

6.根据权利要求2所...

【专利技术属性】
技术研发人员：曹卫，刘治彬，史春苓，陈科科，
申请(专利权)人：杭州秋果计划科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人