数字人视频生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39399655 阅读：12 留言：0更新日期：2023-11-19 15:53

本申请实施例提供一种数字人视频生成方法、装置、电子设备及存储介质，该数字人视频生成方法包括：获取包含人脸的图像，获取人体动作序列；基于图像和人体动作序列，生成第一视频，第一视频包含N个视频帧；对第一视频中每个视频帧进行人脸检测，得到第一视频中每个视频帧的人脸掩膜；对图像进行人脸检测，得到图像的人脸掩膜；基于图像的人脸掩膜和音频语料，生成第二视频；第二视频包含N个视频帧，第二视频中的N个视频帧与第一视频中的N个视频帧一一对应；将第一视频中每个视频帧的人脸掩膜用第二视频中对应的视频帧进行替换，得到数字人视频，可以降低数字人视频的制作成本。可以降低数字人视频的制作成本。可以降低数字人视频的制作成本。

全部详细技术资料下载

【技术实现步骤摘要】
数字人视频生成方法、装置、电子设备及存储介质

[0001]本申请涉及计算机视觉
，具体涉及一种数字人视频生成方法、装置、电子设备及存储介质。

技术介绍

[0002]数字人主播有着广泛的应用市场和巨大的潜在价值，目前有两种生成数字人视频的方式，一种是动嘴不动身体，另一种是身体和嘴一起动，前者与后者相比交互性差，但制作简单。后者在制作过程中需要录制一段主播的视频，成本较高。

技术实现思路

[0003]本申请实施例提供一种数字人视频生成方法、装置、电子设备及存储介质，可以降低数字人视频的制作成本。
[0004]本申请实施例的第一方面提供了一种数字人视频生成方法，包括：
[0005]获取包含人脸的图像，获取人体动作序列；
[0006]基于所述图像和所述人体动作序列，生成第一视频，所述第一视频包含N个视频帧；
[0007]对所述第一视频中每个视频帧进行人脸检测，得到所述第一视频中每个视频帧的人脸掩膜；
[0008]对所述图像进行人脸检测，得到所述图像的人脸掩膜；
[0009]基于所述图像的人脸掩膜和音频语料，生成第二视频；所述第二视频包含N个视频帧，所述第二视频中的N个视频帧与所述第一视频中的N个视频帧一一对应；
[0010]将所述第一视频中每个视频帧的人脸掩膜用所述第二视频中对应的视频帧进行替换，得到数字人视频。
[0011]本申请实施例的第二方面提供了一种数字人视频生成装置，包括：
[0012]获取单元，用于获取包含人脸的图像，获...

【技术保护点】

【技术特征摘要】
1.一种数字人视频生成方法，其特征在于，包括：获取包含人脸的图像，获取人体动作序列；基于所述图像和所述人体动作序列，生成第一视频，所述第一视频包含N个视频帧；对所述第一视频中每个视频帧进行人脸检测，得到所述第一视频中每个视频帧的人脸掩膜；对所述图像进行人脸检测，得到所述图像的人脸掩膜；基于所述图像的人脸掩膜和音频语料，生成第二视频；所述第二视频包含N个视频帧，所述第二视频中的N个视频帧与所述第一视频中的N个视频帧一一对应；将所述第一视频中每个视频帧的人脸掩膜用所述第二视频中对应的视频帧进行替换，得到数字人视频。2.根据权利要求1所述的方法，其特征在于，所述人体动作序列包括深度图序列或者骨骼关键点序列。3.根据权利要求1所述的方法，其特征在于，所述人体动作序列基于包含人体全身的视频得到。4.根据权利要求1所述的方法，其特征在于，所述基于所述图像和所述人体动作序列，生成第一视频，包括：基于第一视频合成算法、所述图像和所述人体动作序列，生成以所述图像为主体，动作与所述人体动作序列一致的第一视频。5.根据权利要求1所述的方法，其特征在于，所述基于所述图像的人脸掩膜和音频语料，生成第二视频，包括：基于第二视频合成算法、所述图像的人脸掩膜和音频语料，生成第二视频，所述第二视频中的唇形、嘴型和表情，与所述音频语料相对应。6.根据权利要求1所述的方法，其特征在于，所述音频语料的...

【专利技术属性】
技术研发人员：王凡祎，苏婧文，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人