一种数字人视频生成方法、设备及存储介质技术

技术编号：45341728 阅读：27 留言：0更新日期：2025-05-27 18:54

本公开涉及一种数字人视频生成方法、设备及存储介质，属于深度学习技术领域。通过接收音频信号以及参考人物图像；将音频信号输入到音频姿势序列对应关系学习模块中，输出音频信号对应的姿势序列数据；该学习模块采用已有讲话数字人视频帧预训练生成，姿势引导器采用预训练的姿势引导网络，仅对音频引导网络进行训练，训练过程中网络学习的目标为最小化所述音频引导器的输出与所述姿势引导器的输出之间的差异；将参考人物图像以及所述姿势序列数据输入到生成模型中，根据姿势序列数据依次生成视频帧；将生成的视频帧按时间顺序合成，输出数字人视频。本公开能够确保生成视频中的动作与驱动音频的一致性，有效保持人物形象的一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开属于深度学习，具体而言涉及一种数字人视频生成方法、设备及存储介质。

技术介绍

1、现有2d数字人视频生成方法通常是姿势驱动的，即给定人物图片与姿势序列，生成相应人物的动作视频。但在实际应用中，尤其是交互场景，人们更期望数字人的相应动作可由语音驱动，即给定人物图片与语音片段，生成具有相应肢体动作的讲话视频。

2、基于语音驱动的2d数字人视频生成技术，旨在将给定人物的肖像图片或视频转化为与驱动语音同步的讲话视频。其是一种多模态生成技术，在电影制作、虚拟助手、在线教育、视频会议等领域展现出巨大的应用价值。恰当的肢体动作作为人类语言的补充，有助于提升虚拟数字人的可信度。但现有技术大多重点关注面部或头部区域的生成，对比这些区域尤其是口型部分，肢体动作与驱动音频呈现弱相关性，这使得生成与驱动音频具有一致性的、自然流畅的肢体动作更具挑战性。

3、一种直接的生成方案为先使用协同语音的姿势生成(co-speech gesturegeneration)方法将语音转为姿势序列，再使用基于姿势序列驱动的视频生成方法将姿势序列渲染为...

【技术保护点】

1.一种数字人视频生成方法，其特征在于，包括：

2.根据权利要求1所述的数字人视频生成方法，其特征在于，所述音频引导网络和所述姿势引导网络的网络结构相同；每个网络包含四层卷积层；其中，第一层卷积网络为：卷积核大小为3x3，步长大小为1x1，填充大小为1x1，输出通道数为16；第二层卷积网络为：卷积核大小为4x4，步长大小为2x2，填充大小为1x1，输出通道数为32；第三层卷积网络为：卷积核大小为4x4，步长大小为2x2，填充大小为1x1，输出通道数为64；第四层卷积网络为：卷积核大小为4x4，步长大小为2x2，填充大小为1x1，输出通道数为128。