视频的生成方法、装置、计算机可读存储介质和处理器制造方法及图纸

技术编号：32966887 阅读：13 留言：0更新日期：2022-04-09 11:24

本申请提供了一种视频的生成方法、装置、计算机可读存储介质和处理器。该方法包括：获取目标数据；对目标数据进行预处理，得到第二语音数据；对第二语音数据进行音色转换处理，得到第三语音数据；根据第三语音数据，生成动态视频，动态视频中的虚拟对象发出第三语音数据。该方案中，仅需要对目标数据进行预处理，对预处理后的第二语音数据进行音色转换处理，就可以直接得到新的语音数据，无需耗费大量的时间与成本来制作新的语音数据，基于第三语音数据就可以直接生成动态视频，无需复杂的3D建模过程，相比现有技术中通过长时间制作视频模板和TTS音库的方式，该方案可以快速处理数据，进而可以快速响应用户对个性化角色的定制需求。而可以快速响应用户对个性化角色的定制需求。而可以快速响应用户对个性化角色的定制需求。

全部详细技术资料下载

【技术实现步骤摘要】
视频的生成方法、装置、计算机可读存储介质和处理器

[0001]本申请涉及数据处理领域，具体而言，涉及一种视频的生成方法、装置、计算机可读存储介质和处理器。

技术介绍

[0002]在虚拟数字人应用场景中，说话人的声音经常会根据不同业务需求进行个性化定制，目前的方案是通过系统内置的视频模板和固有音色效果进行虚拟人合成，输出音色较为单一，当新增数字人形象时，视频模板和TTS音库制作周期较长，耗费成本高，还需要反复调试，使系统复杂度提高，造成数据处理较慢，进而无法快速响应用户对个性化角色的定制需求。

技术实现思路

[0003]本申请的主要目的在于提供一种视频的生成方法、装置、计算机可读存储介质和处理器，以解决现有技术中无法快速响应用户对个性化角色的定制需求的问题。
[0004]根据本专利技术实施例的一个方面，提供了一种视频的生成方法，包括：获取目标数据，所述目标数据包括第一文本数据和/或第一语音数据，所述第一文本数据为控制机器人输入至终端中的数据，所述第一语音数据为接收到的语音数据；对所述目标数据进行预处理，得到第二语音数据；对所述第二语音数据进行音色转换处理，得到第三语音数据；根据所述第三语音数据，生成动态视频，所述动态视频中的虚拟对象发出所述第三语音数据。
[0005]可选地，在所述目标数据为所述第一文本数据的情况下，对所述目标数据进行预处理，得到第二语音数据，包括：对所述第一文本数据的语种进行分类，得到所述第一文本数据的语种类别；按照所述语种类别，通过TTS技术将所述第一文本数据转换为所...

【技术保护点】

【技术特征摘要】
1.一种视频的生成方法，其特征在于，包括：获取目标数据，所述目标数据包括第一文本数据和/或第一语音数据，所述第一文本数据为控制机器人输入至终端中的数据，所述第一语音数据为接收到的语音数据；对所述目标数据进行预处理，得到第二语音数据；对所述第二语音数据进行音色转换处理，得到第三语音数据；根据所述第三语音数据，生成动态视频，所述动态视频中的虚拟对象发出所述第三语音数据。2.根据权利要求1所述的方法，其特征在于，在所述目标数据为所述第一文本数据的情况下，对所述目标数据进行预处理，得到第二语音数据，包括：对所述第一文本数据的语种进行分类，得到所述第一文本数据的语种类别；按照所述语种类别，通过TTS技术将所述第一文本数据转换为所述第二语音数据。3.根据权利要求1所述的方法，其特征在于，在所述目标数据为所述第一语音数据的情况下，对所述目标数据进行预处理，得到第二语音数据，包括：对所述第一语音数据进行解码；对解码后的所述第一语音数据进行降噪处理，得到所述第二语音数据。4.根据权利要求1所述的方法，其特征在于，对所述第二语音数据进行音色转换处理，得到第三语音数据，包括：获取目标音色；将所述第二语音数据的音色转换为所述目标音色。5.根据权利要求4所述的方法，其特征在于，将所述第二语音数据的音色转换为所述目标音色，包括：采用VC技术将所述第二语音数...

【专利技术属性】
技术研发人员：李健，王福强，陈明，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人