数字人合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：44930784 阅读：20 留言：0更新日期：2025-04-08 19:12

本公开提供一种数字人合成方法、装置、电子设备及存储介质，涉及人工智能技术领域。所述方法包括：获取目标图像、驱动视频及目标音频；提取所述目标图像中的三维人脸数据和三维隐式关键点，以及所述目标音频的音频特征；基于所述三维人脸数据及所述音频特征，预测所述音频特征映射的所述三维人脸数据；获取所述驱动视频中人物的头部姿态数据，并基于所述头部姿态数据、所述三维隐式关键点及所述音频特征映射的所述三维人脸数据预测所述目标图像的运动光流；基于所述运动光流合成所述数字人的视频帧图像，以得到所述数字人播报所述目标音频的视频。本公开保证了数字人的人脸细节描述及头部摆动连续自然，提高了数字人口播视频的效果及稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及数字人合成方法、装置、电子设备及存储介质。

技术介绍

1、数字人指的是通过计算机图形学、人工智能、自然语言处理、深度学习等技术生成的虚拟人物形象，能够模仿真实人类的外貌、语音、表情和肢体动作，与用户进行互动。企业也逐渐将虚拟数字人应用于品牌推广和客户服务，借助其24小时不间断的互动和个性化的形象塑造更高效的用户体验。

2、目前，相关技术可以利用人工智能算法，通过一张图像生成高度逼真的数字人，主要基于扩散模型或卷积模型实现。然而，上述扩散模型存在推理成本高，且在视频连续帧生成过程中控制性低，难以保持照片主体及背景的前后帧一致性，生成的视频稳定性差等问题；上述卷积模型存在合成的数字人缺乏真实感，合成视频中人物头部动作不自然等问题。

技术实现思路

1、有鉴于此，本公开实施例提出了一种数字人合成方法、装置、电子设备及存储介质，以解决相关技术中扩散模型存在的推理成本高，且在视频连续帧生成过程中控制性低，难以保持照片主体及背景的前后帧一致性，生成的视频稳定性...

【技术保护点】

1.一种数字人合成方法，其特征在于，包括：

2.根据权利要求1所述的数字人合成方法，其特征在于，所述获取目标图像，包括：

3.根据权利要求2所述的数字人合成方法，其特征在于，所述基于所述人脸关键点坐标将所述原始图像中检测到的人脸与标准人脸对齐，得到所述目标图像，包括：

4.根据权利要求3所述的数字人合成方法，其特征在于，在所述基于所述运动光流合成所述数字人的视频帧图像之后，所述方法还包括：

5.根据权利要求1所述的数字人合成方法，其特征在于，所述获取所述驱动视频中人物的头部姿态数据，包括：

6.根据权利要求5所述的数字人合成方法...

【技术特征摘要】

1.一种数字人合成方法，其特征在于，包括：

2.根据权利要求1所述的数字人合成方法，其特征在于，所述获取目标图像，包括：

4.根据权利要求3所述的数字人合成方法，其特征在于，在所述基于所述运动光流合成所述数字人的视频帧图像之后，所述方法还包括：

5.根据权利要求1所述的数字人合成方法，其特征在于，所述获取所述驱动视频中人物的头部姿态数据，包括：

6.根据权利要求5所述的数字人合成方法，其特征...

【专利技术属性】
技术研发人员：李鹏程，赵巧姣，
申请(专利权)人：西安点告网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人