视频的生成方法、装置、计算机可读存储介质和处理器制造方法及图纸

技术编号:32966887 阅读:13 留言:0更新日期:2022-04-09 11:24
本申请提供了一种视频的生成方法、装置、计算机可读存储介质和处理器。该方法包括:获取目标数据;对目标数据进行预处理,得到第二语音数据;对第二语音数据进行音色转换处理,得到第三语音数据;根据第三语音数据,生成动态视频,动态视频中的虚拟对象发出第三语音数据。该方案中,仅需要对目标数据进行预处理,对预处理后的第二语音数据进行音色转换处理,就可以直接得到新的语音数据,无需耗费大量的时间与成本来制作新的语音数据,基于第三语音数据就可以直接生成动态视频,无需复杂的3D建模过程,相比现有技术中通过长时间制作视频模板和TTS音库的方式,该方案可以快速处理数据,进而可以快速响应用户对个性化角色的定制需求。而可以快速响应用户对个性化角色的定制需求。而可以快速响应用户对个性化角色的定制需求。

【技术实现步骤摘要】
视频的生成方法、装置、计算机可读存储介质和处理器


[0001]本申请涉及数据处理领域,具体而言,涉及一种视频的生成方法、装置、计算机可读存储介质和处理器。

技术介绍

[0002]在虚拟数字人应用场景中,说话人的声音经常会根据不同业务需求进行个性化定制,目前的方案是通过系统内置的视频模板和固有音色效果进行虚拟人合成,输出音色较为单一,当新增数字人形象时,视频模板和TTS音库制作周期较长,耗费成本高,还需要反复调试,使系统复杂度提高,造成数据处理较慢,进而无法快速响应用户对个性化角色的定制需求。

技术实现思路

[0003]本申请的主要目的在于提供一种视频的生成方法、装置、计算机可读存储介质和处理器,以解决现有技术中无法快速响应用户对个性化角色的定制需求的问题。
[0004]根据本专利技术实施例的一个方面,提供了一种视频的生成方法,包括:获取目标数据,所述目标数据包括第一文本数据和/或第一语音数据,所述第一文本数据为控制机器人输入至终端中的数据,所述第一语音数据为接收到的语音数据;对所述目标数据进行预处理,得到第二语音数据;对所述第二语音数据进行音色转换处理,得到第三语音数据;根据所述第三语音数据,生成动态视频,所述动态视频中的虚拟对象发出所述第三语音数据。
[0005]可选地,在所述目标数据为所述第一文本数据的情况下,对所述目标数据进行预处理,得到第二语音数据,包括:对所述第一文本数据的语种进行分类,得到所述第一文本数据的语种类别;按照所述语种类别,通过TTS技术将所述第一文本数据转换为所述第二语音数据。
[0006]可选地,在所述目标数据为所述第一语音数据的情况下,对所述目标数据进行预处理,得到第二语音数据,包括:对所述第一语音数据进行解码;对解码后的所述第一语音数据进行降噪处理,得到所述第二语音数据。
[0007]可选地,对所述第二语音数据进行音色转换处理,得到第三语音数据,包括:获取目标音色;将所述第二语音数据的音色转换为所述目标音色。
[0008]可选地,将所述第二语音数据的音色转换为所述目标音色,包括:采用VC技术将所述第二语音数据的音色转换为所述目标音色。
[0009]可选地,根据所述第三语音数据,生成动态视频,包括:获取初始视频,所述初始视频包括当前拍摄的视频和/或预先存储的视频;将所述第三语音数据增加至所述初始视频中,得到所述动态视频。
[0010]可选地,将所述第三语音数据增加至所述初始视频中,得到所述动态视频,包括:采用Avatar技术,将所述第三语音数据增加至所述初始视频中,得到所述动态视频。
[0011]根据本专利技术实施例的另一方面,还提供了一种视频的生成装置,包括:获取单元,
用于获取目标数据,所述目标数据包括第一文本数据和/或第一语音数据,所述第一文本数据为控制机器人输入至终端中的数据,所述第一语音数据为接收到的语音数据;第一处理单元,用于对所述目标数据进行预处理,得到第二语音数据;第二处理单元,用于对所述第二语音数据进行音色转换处理,得到第三语音数据;生成单元,用于根据所述第三语音数据,生成动态视频,所述动态视频中的虚拟对象发出所述第三语音数据。
[0012]根据本专利技术实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行任意一种所述的视频的生成方法。
[0013]根据本专利技术实施例的再一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一种所述的视频的生成方法。
[0014]在本专利技术实施例中,首先获取目标数据,之后对上述目标数据进行预处理,得到第二语音数据,之后对上述第二语音数据进行音色转换处理,得到第三语音数据,最后根据上述第三语音数据,生成动态视频。该方案中,仅需要对目标数据进行预处理,对预处理后的第二语音数据进行音色转换处理,就可以直接得到新的语音数据,无需耗费大量的时间与成本来制作新的语音数据,基于第三语音数据就可以直接生成动态视频,无需复杂的3D建模过程,相比现有技术中通过长时间制作视频模板和TTS音库的方式,上述的方案可以快速处理数据,进而可以快速响应用户对个性化角色的定制需求。并且,现有技术中制作新的虚拟对象时耗费的成本也较高,而本申请的上述方案也可以降低制作新的虚拟对象的制作成本,也提高了制作新的虚拟对象的效率。
附图说明
[0015]构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0016]图1示出了根据本申请的实施例的一种视频的生成方法的流程示意图;
[0017]图2示出了根据本申请的实施例的一种视频的生成装置的结构示意图;
[0018]图3示出了根据本申请的实施例的又一种视频的生成方法的流程示意图。
具体实施方式
[0019]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0020]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0021]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清
楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0022]应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。
[0023]为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
[0024]TTS:Text To Speech,从文本到语音,是一种通过神经网络的设计,语音合成应用的一种,把文本智能地转换为自然语音流进行输出,TTS技术对文本文件进行实时转换,转换时间之短可以用秒计算,在其特有智能语音器作用下,文本输出的语音音律较为流畅。
[0025]VC:Voice Conversion,将一个人的音色转换为另外一个人音色的技术,就是在保持说话内容不变的情况下,用另一个人的音色说出说话内容。
[0026]Av本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频的生成方法,其特征在于,包括:获取目标数据,所述目标数据包括第一文本数据和/或第一语音数据,所述第一文本数据为控制机器人输入至终端中的数据,所述第一语音数据为接收到的语音数据;对所述目标数据进行预处理,得到第二语音数据;对所述第二语音数据进行音色转换处理,得到第三语音数据;根据所述第三语音数据,生成动态视频,所述动态视频中的虚拟对象发出所述第三语音数据。2.根据权利要求1所述的方法,其特征在于,在所述目标数据为所述第一文本数据的情况下,对所述目标数据进行预处理,得到第二语音数据,包括:对所述第一文本数据的语种进行分类,得到所述第一文本数据的语种类别;按照所述语种类别,通过TTS技术将所述第一文本数据转换为所述第二语音数据。3.根据权利要求1所述的方法,其特征在于,在所述目标数据为所述第一语音数据的情况下,对所述目标数据进行预处理,得到第二语音数据,包括:对所述第一语音数据进行解码;对解码后的所述第一语音数据进行降噪处理,得到所述第二语音数据。4.根据权利要求1所述的方法,其特征在于,对所述第二语音数据进行音色转换处理,得到第三语音数据,包括:获取目标音色;将所述第二语音数据的音色转换为所述目标音色。5.根据权利要求4所述的方法,其特征在于,将所述第二语音数据的音色转换为所述目标音色,包括:采用VC技术将所述第二语音数...

【专利技术属性】
技术研发人员:李健王福强陈明武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1