视频生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40925726 阅读：2 留言：0更新日期：2024-04-18 14:48

本申请提供一种视频生成方法、装置、电子设备及存储介质，其中，该方法包括：根据视频讲解文本和目标数字人的声音特征，生成目标音频，目标数字人为基于真实人物所构建的数字化形象；基于目标音频和口型同步模型确定口型信息集合，根据口型信息集合对目标数字人对应的原始视频进行口型重构处理，获取目标数字人的口型与目标音频匹配的第一目标视频；将目标音频与第一目标视频合成，生成目标数字人基于视频讲解文本、以动态形象进行内容讲解的第二目标视频；基于视频展示需求，对第二目标视频进行自动化剪辑，生成最终视频。本申请可提供真实、生动化的数字人形象，得到准确度高的口型，且通过自动化剪辑，可以节省人力成本，提升生产效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种视频生成方法、装置、电子设备及存储介质。

技术介绍

1、目前市面上的数字人形象以3d虚拟数字人为主，以真人数字人为辅。通过提供文本信息生成数字人输出音频的影像信息，实现基于数字人进行内容讲解。

2、针对3d虚拟数字人而言，由于其为虚拟形象，缺乏真实感，嘴型匹配也不是完全准确，因此所生成的数字人视频对用户的吸引度不高。市面上的真人数字人数量不多，人物口型对齐的准确度不高，声音训练的结果也不自然，因此用户在浏览所生成的数字人视频时体验不佳。且目前数字人视频的剪辑比较依赖人工，剪辑成本高、效率低。

技术实现思路

1、本申请实施例提供一种克服上述问题或者至少部分地解决上述问题的视频生成方法、装置、电子设备及存储介质。

2、第一方面，本申请实施例提供了一种视频生成方法，包括：

3、根据视频讲解文本和目标数字人的声音特征，生成目标音频，所述目标数字人为基于真实人物所构建的数字化形象；

4、基于所述目标音频和口型同步模型确定口型信息集合，根据所述口型信息集合对所述目标数字人对应的原始视频进行口型重构处理，获取所述目标数字人的口型与所述目标音频匹配的第一目标视频；

5、将所述目标音频与所述第一目标视频合成，生成所述目标数字人基于所述视频讲解文本、以动态形象进行内容讲解的第二目标视频；

6、基于视频展示需求，对所述第二目标视频进行自动化剪辑，生成最终视频。

7、第二方面，本申请实施例提供了一种视频生成装置，包括：

8、第一生成模块，用于根据视频讲解文本和目标数字人的声音特征，生成目标音频，所述目标数字人为基于真实人物所构建的数字化形象；

9、处理模块，用于基于所述目标音频和口型同步模型确定口型信息集合，根据所述口型信息集合对所述目标数字人对应的原始视频进行口型重构处理，获取所述目标数字人的口型与所述目标音频匹配的第一目标视频；

10、第二生成模块，用于将所述目标音频与所述第一目标视频合成，生成所述目标数字人基于所述视频讲解文本、以动态形象进行内容讲解的第二目标视频；

11、剪辑生成模块，用于基于视频展示需求，对所述第二目标视频进行自动化剪辑，生成最终视频。

12、第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述第一方面所述的视频生成方法的步骤。

13、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的视频生成方法的步骤。

14、本申请实施例技术方案，通过采用基于真实人物所构建的目标数字人，可以提供更加真实、生动化的数字人形象，在将目标数字人的声音特征和视频讲解文本结合后，可以获取以真实的声音特征进行讲解的目标音频；通过将口型同步模型与目标音频进行结合，可以得到目标音频对应的相对准确的口型信息集合，基于所得到的口型信息集合对原始视频中的目标数字人进行口型重构，可以得到准确度高的口型；通过将目标音频与第一目标视频合成，可以生成目标数字人基于视频讲解文本、以动态形象和真实声音特征进行内容讲解的第二目标视频；在获取第二目标视频后进行自动化剪辑生成最终视频，可以节省人力成本，提升生产效率。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据视频讲解文本和目标数字人的声音特征，生成目标音频，包括：

3.根据权利要求1所述的方法，其特征在于，所述口型重构处理至少包括视频标准化、嘴部区域选定以及嘴部区域口型调整；

4.根据权利要求3所述的方法，其特征在于，所述口型信息集合包括所述目标音频在第一时长内对应的口型信息；

5.根据权利要求3所述的方法，其特征在于，所述视频标准化还包括降低视频分辨率；所述方法还包括：

6.根据权利要求3或5所述的方法，其特征在于，所述原始视频仅包括画面信息或者包括画面信息和音频信息，在所述原始视频包括画面信息和音频信息的情况下，所述视频标准化还包括消除音频信息处理；所述方法还包括：

7.根据权利要求1、3或5所述的方法，其特征在于，所述原始视频为在绿幕场景下对所述目标数字人进行视频录制所生成，所述第二目标视频为所述目标数字人在绿幕场景下基于所述视频讲解文本进行内容讲解的视频；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种视频生成装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的视频生成方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的视频生成方法的步骤。

...

【技术特征摘要】

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据视频讲解文本和目标数字人的声音特征，生成目标音频，包括：

3.根据权利要求1所述的方法，其特征在于，所述口型重构处理至少包括视频标准化、嘴部区域选定以及嘴部区域口型调整；

4.根据权利要求3所述的方法，其特征在于，所述口型信息集合包括所述目标音频在第一时长内对应的口型信息；

5.根据权利要求3所述的方法，其特征在于，所述视频标准化还包括降低视频分辨率；所述方法还包括：

7.根据权利要求1、...

【专利技术属性】
技术研发人员：王明忠，
申请(专利权)人：五八畅生活北京信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人