动作图像与视频生成方法、设备与存储介质技术

技术编号：40491175 阅读：4 留言：0更新日期：2024-02-26 19:21

本申请实施例提供一种动作图像与视频生成方法、设备与存储介质。其中，提供一种2D虚拟数字人的动作图像生成方式或视频生成方式，对2D图像中用户的嘴部区域修复，实现准确匹配说话声音和嘴型的能力，能够更加简单地实现2D虚拟数字人自由说话功能，且最大限度地保留了真人特征，让2D虚拟数字人在视觉效果上和真人无异，让2D虚拟数字人更加真实，使得和真人几乎一模一样的2D虚拟数字人成为可能。该2D虚拟数字人能够代替真人进行长时间不间断的直播和短视频出境拍摄任务，大大降低直播和短视频拍摄制作的成本。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网，尤其涉及一种动作图像与视频生成方法、设备与存储介质。

技术介绍

1、直播带货、短视频拍摄的用户的时间精力是有限的，无法做到长时间内不间断地直播或者随时随地在短视频中出镜说话。于是，出现了三维（3d）虚拟数字人，即通过对真人头部进行三维建模，并对面部表情变化进行参数化分解得到多个三维表情基；然后基于声音特征预测所有的表情基参数，基于这些参数对三维表情基进行融合，以驱动数字人的口唇动作，模拟真人说话。

2、基于3d虚拟数字人的方案，需要进行三维建模、表情基分解、渲染等操作，操作流程较为复杂，成本高，且驱动效果较为僵硬死板，缺少真实度。

技术实现思路

1、本申请的多个方面提供一种动作图像与视频生成方法、设备与存储介质，用以提高驱动数字人的口唇动作的真实度。

2、本申请实施例提供一种动作图像生成方法，包括：确定待修复图像、参考图像和音频信号，待修复图像和参考图像包含同一目标用户，且待修复图像中的嘴部区域为待修复区域；对待修复图像、参考图像和音频信号分别进行特征提取，以得到待修复图像、参考图像和音频信号各自的初始特征，待修复图像、参考图像和音频信号的初始特征分别反映待修复的嘴部区域的图像位置、样式和动作形态；对待修复图像、参考图像和音频信号的初始特征进行融合处理，以得到目标融合特征；根据目标融合特征对待修复图像中的嘴部区域进行修复，以得到嘴部动作与音频信号匹配的动作图像。

3、本申请实施例提供一种视频生成方法，获取初始视频片段和音频片段，

4、本申请实施例提供一种电子设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器耦合至存储器，用于执行计算机程序以用于执行动作图像方法或视频生成方法中的步骤。

5、本申请实施例提供存储有计算机程序的计算机存储介质，当计算机程序被处理器执行时，致使处理器能够实现动作图像方法或视频生成方法中的步骤。

6、在本申请实施例中，基于参考图像、音频信号以及待修复图像各自提供的特征，借助于图像修复技术对待修复图像中用户的嘴部区域修复，实现准确匹配说话声音和嘴型的驱动能力，能够更加简单地实现2d虚拟数字人自由说话功能，且最大限度地保留了真人特征，让2d虚拟数字人在视觉效果上和真人无异，让2d虚拟数字人更加真实，使得能够利用2d虚拟数字人代替真人进行长时间不间断的直播和短视频出境拍摄任务，大大降低直播和短视频拍摄制作的成本。

本文档来自技高网...

【技术保护点】

1.一种动作图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述待修复图像、参考图像和音频信号分别进行特征提取，以得到所述待修复图像、参考图像和音频信号各自的初始特征，包括：

3.根据权利要求2所述的方法，其特征在于，将所述待修复图像输入生成对抗网络中的第一图像编码器进行特征提取，以得到所述待修复图像的初始特征，包括：

4.根据权利要求2所述的方法，其特征在于，将所述参考图像输入生成对抗网络中的第二图像编码器进行特征提取，以得到所述参考图像的初始特征，包括：

5.根据权利要求2所述的方法，其特征在于，还包括：将音频信号输入音频提取器进行向量化处理，得到所述音频信号的表征向量；

6.根据权利要求2所述的方法，其特征在于，对所述待修复图像、参考图像和音频信号的初始特征进行融合处理，以得到目标融合特征，包括：

7.根据权利要求6所述的方法，其特征在于，将所述待修复图像和参考图像各自的初始特征输入所述生成网络中的第一特征融合模块进行图像特征融合，以得到图像融合特征，包括：

9.根据权利要求8所述的方法，其特征在于，将所述第二拼接特征信息和所述参考图像的初始特征输入所述第二特征融合模块中的特征融合子模块，学习所述第二拼接特征信息中相对于所述参考图像的共享特征和相对于所述音频信号的特有特征并融合，以得到初始融合特征，包括：

10.根据权利要求9所述的方法，其特征在于，所述第一特征提取子模块分别包括至少一个第五特征提取层，所述第二特征提取子模块分别包括至少一个第六特征提取层；

11.根据权利要求2-10任一项所述的方法，其特征在于，根据所述目标融合特征对所述待修复图像中的嘴部区域进行修复，以得到嘴部动作与所述音频信号匹配的动作图像，包括：

12.根据权利要求11所述的方法，其特征在于，将所述目标融合特征和所述待修复图像的初始特征输入所述生成网络中的解码器，对所述待修复图像中的嘴部区域进行修复，以得到嘴部动作与所述音频信号匹配的动作图像，包括：

13.根据权利要求11所述的方法，其特征在于，还包括：

14.根据权利要求13所述的方法，其特征在于，根据所述训练样本集对初始生成对抗网络进行多阶段的模型训练，以得到所述生成对抗网络，包括：

15.一种视频生成方法，其特征在于，包括：

16.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-14以及权利要求15中任一项所述方法中的步骤。

17.一种存储有计算机程序的计算机存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器能够实现权利要求1-14以及权利要求15中任一项所述方法中的步骤。

...

【技术特征摘要】

1.一种动作图像生成方法，其特征在于，包括：

5.根据权利要求2所述的方法，其特征在于，还包括：将音频信号输入音频提取器进行向量化处理，得到所述音频信号的表征向量；

6.根据权利要求2所述的方法，其特征在于，对所述待修复图像、参考图像和音频信号的初始特征进行融合处理，以得到目标融合特征，包括：

8.根据权利要求6所述的方法，其特征在于，将所述图像融合特征、所述音频信号的初始特征和所述参考图像的初始特征输入所述生成网络中的第二特征融合模块进行音频特征和图像特征的融合，以得到目标融合特征，包括：

9.根据权利要求8所述的方法，其特征在于，将所述第二拼接特征信息和所述参考图像的初始特征输入所述第二特征融合模块中的特征融合子模块，学习所述...

【专利技术属性】
技术研发人员：孙泽锋，楚东方，陈志文，吕承飞，
申请(专利权)人：淘宝中国软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人