一种虚拟人物生成方法及其装置制造方法及图纸

技术编号:32803692 阅读:46 留言:0更新日期:2022-03-26 19:55
本申请提供了一种虚拟人物生成方法,方法包括:获取目标文本;根据文本转语音TTS模型,对目标文本进行处理,以获取音频特征以及与目标文本对应的语音数据,其中,TTS模型用于将输入的文本转换为语音数据,音频特征为TTS模型的中间网络层得到的音频特征,音频特征相比语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种;通过神经网络对音频特征进行处理,以获取虚拟人物的脸部特征,神经网络为预先训练得到的,神经网络用于将输入的音频特征转换为脸部特征;根据脸部特征,生成虚拟人物的图像帧集合,并根据图像帧集合和语音数据,生成包括虚拟人物的视频。本申请可以降低运算开销和模型的部署成本。可以降低运算开销和模型的部署成本。可以降低运算开销和模型的部署成本。

【技术实现步骤摘要】
一种虚拟人物生成方法及其装置


[0001]本申请涉及电子
,尤其涉及一种虚拟人物生成方法及其装置。

技术介绍

[0002]随着人工智能和智能终端的发展,人机交互越来越多样化,在交互方式上,人们也不满足单维度的听觉上,将文字已视频方式播放,让体验更加饱满。当前已经出现了一些虚拟人物主播,用户可以在网页上输入一段文字,网页可以生成语音以及对应的虚拟人物表情及动作。
[0003]在现有的实现中,虚拟人物的声音及面部特征都基于文本建模,先通过文本转语音(text to speech,TTS)将文本转换为语音,再通过神经网路对语音进行处理来获取图片帧集合,两者融合生成虚拟人物的视频,然而这类方法虚拟人物的嘴型和语音往往不能完全对齐,导致效果不自然。

技术实现思路

[0004]第一方面,本申请提供了一种虚拟人物生成方法,所述方法包括:
[0005]获取目标文本;根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征以及与所述目标文本对应的语音数据,其中,所述TTS模型用于将输入的文本转换为语音数据,所述音频特征为所述TTS模型的中间网络层得到的音频特征,所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种;通过神经网络对所述音频特征进行处理,以获取所述虚拟人物的脸部特征,所述神经网络为预先训练得到的,所述神经网络用于将输入的音频特征转换为脸部特征;根据所述脸部特征,生成所述虚拟人物的图像帧集合,并根据所述图像帧集合和所述语音数据,生成包括所述虚拟人物的视频。
[0006]TTS模型在处理目标文本时得到的音频特征,相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种,也就是说音频特征包含的信息量和细节是更为丰富的。且相对于目标文本,逐帧的音频特征与图像帧天然对齐,相对于语音数据,这些音频特征表示包含了很多语音风格的高阶信息,这些信息也能传递到脸部特征合成中,达到声音与表情在时间帧以及情感风格表达等多维度在帧级别上的完全对齐。且由于将TTS模型处理目标文本过程中得到的音频特征作为脸部特征提取的依据,使得不需要对语音数据重新进行特征提取,降低了运算开销和模型的部署成本,利用音频特征同时驱动语音数据预测以及脸部特征预测。
[0007]在一种可能的实现中,所述目标文本用于供虚拟人物在N帧内演示,所述音频特征的数量为N,且N个音频特征中的每个音频特征对应于所述N帧中的一帧。
[0008]在一种可能的实现中,所述根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征,包括:获取所述目标文本的M个音素;
[0009]通过神经网络对所述M个音素进行处理,以获取M个特征向量;
[0010]根据所述M个特征向量,基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度;
[0011]根据所述关联度和所述M个特征向量,确定所述N帧中每帧的音频特征。
[0012]在一种可能的实现中,所述根据所述关联度和所述M个特征向量,确定所述N帧中每帧的音频特征,包括:
[0013]根据所述关联度,对所述M个特征向量进行加权求和,以确定所述N帧中每帧的音频特征。
[0014]在一种可能的实现中,目标音素为所述M个音素中的任意的一个音素,所述目标音素对应于所述M个特征向量中的目标特征向量,所述目标音素用于供虚拟人物在N帧中的多个帧内演示,且所述目标特征向量在所述M个特征向量中与所述多个帧中的各个帧的关联度最大。
[0015]在一种可能的实现中,第一目标帧为所述N帧中的任意一帧,所述根据所述M个特征向量,基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度,包括:
[0016]获取所述第一目标帧相邻的前一帧的语音数据;
[0017]对所述第一目标帧相邻的前一帧的语音数据进行解码,得到所述第一目标帧相邻的前一帧的解码状态;
[0018]基于注意力机制,根据所述第一目标帧相邻的前一帧的解码状态与所述M个特征向量中每个特征向量的近似度,确定所述M个特征向量中每个特征向量与所述N帧中各帧的关联度。
[0019]在一种可能的实现中,第二目标帧为所述N帧中的任意一帧,所述根据所述M个特征向量,所述根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征,包括:
[0020]获取所述第二目标帧相邻的前一帧的语音数据;
[0021]对所述第二目标帧相邻的前一帧的语音数据进行解码,得到所述第二目标帧相邻的前一帧的解码状态,所述第二目标帧相邻的前一帧的解码状态用于作为所述第二目标帧对应的音频特征。
[0022]在一种可能的实现中,所述获取目标文本,包括:
[0023]接收终端设备发送的目标文本。
[0024]在一种可能的实现中,所述获取目标文本,包括:
[0025]显示文本输入框以及文本输入指示,所述目标指示用于指示用户在所述文本输入框中输入供虚拟人物演示的文本;
[0026]获取用户在所述文本输入框输入的目标文本。
[0027]在一种可能的实现中,所述目标文本用于供虚拟人物在N帧内演示,所述视频包括N帧,所述N帧中的每一帧为所述图像帧集合中的一帧。
[0028]第二方面,本申请提供了一种虚拟人物生成装置,所述装置包括:
[0029]获取模块,用于获取目标文本;
[0030]文本转语音TTS模块,用于根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征以及与所述目标文本对应的语音数据,其中,所述TTS模型用于将输入的文本转换为语音数据,所述音频特征为所述TTS模型的中间网络层得到的音频特征,所述音频特
征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种;
[0031]脸部特征生成模块,用于通过神经网络对所述音频特征进行处理,以获取所述虚拟人物的脸部特征,所述神经网络为预先训练得到的,所述神经网络用于将输入的音频特征转换为脸部特征;
[0032]虚拟人物生成模块,用于根据所述脸部特征,生成所述虚拟人物的图像帧集合,并根据所述图像帧集合和所述语音数据,生成包括所述虚拟人物的视频。
[0033]在一种可能的实现中,所述目标文本用于供虚拟人物在N帧内演示,所述音频特征的数量为N,且N个音频特征中的每个音频特征对应于所述N帧中的一帧。
[0034]在一种可能的实现中,所述文本转语音TTS模块,用于:
[0035]获取所述目标文本的M个音素;
[0036]通过神经网络对所述M个音素进行处理,以获取M个特征向量;
[0037]根据所述M个特征向量,基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度;
[0038]根据所述关联度和所述M个特征向量,确定所述N帧中每帧的音频特征。
[0039]在一种可能的实现中,所述文本转语音TTS模块,用于:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟人物生成方法,其特征在于,所述方法包括:获取目标文本;根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征以及与所述目标文本对应的语音数据,其中,所述TTS模型用于将输入的文本转换为语音数据,所述音频特征为所述TTS模型的中间网络层得到的音频特征,所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种;通过神经网络对所述音频特征进行处理,以获取所述虚拟人物的脸部特征,所述神经网络为预先训练得到的,所述神经网络用于将输入的音频特征转换为脸部特征;根据所述脸部特征,生成所述虚拟人物的图像帧集合,并根据所述图像帧集合和所述语音数据,生成包括所述虚拟人物的视频。2.根据权利要求1所述的方法,其特征在于,所述目标文本用于供虚拟人物在N帧内演示,所述音频特征的数量为N,且N个音频特征中的每个音频特征对应于所述N帧中的一帧。3.根据权利要求2所述的方法,其特征在于,所述根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征,包括:获取所述目标文本的M个音素;通过神经网络对所述M个音素进行处理,以获取M个特征向量;根据所述M个特征向量,基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度;根据所述关联度和所述M个特征向量,确定所述N帧中每帧的音频特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述关联度和所述M个特征向量,确定所述N帧中每帧的音频特征,包括:根据所述关联度,对所述M个特征向量进行加权求和,以确定所述N帧中每帧的音频特征。5.根据权利要求3或4所述的方法,其特征在于,目标音素为所述M个音素中的任意的一个音素,所述目标音素对应于所述M个特征向量中的目标特征向量,所述目标音素用于供虚拟人物在N帧中的多个帧内演示,且所述目标特征向量在所述M个特征向量中与所述多个帧中的各个帧的关联度最大。6.根据权利要求3至5任一所述的方法,其特征在于,第一目标帧为所述N帧中的任意一帧,所述根据所述M个特征向量,基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度,包括:获取所述第一目标帧相邻的前一帧的语音数据;对所述第一目标帧相邻的前一帧的语音数据进行解码,得到所述第一目标帧相邻的前一帧的解码状态;基于注意力机制,根据所述第一目标帧相邻的前一帧的解码状态与所述M个特征向量中每个特征向量的近似度,确定所述M个特征向量中每个特征向量与所述N帧中各帧的关联度。7.根据权利要求2所述的方法,其特征在于,第二目标帧为所述N帧中的任意一帧,所述根据所述M个特征向量,所述根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征,包括:
获取所述第二目标帧相邻的前一帧的语音数据;对所述第二目标帧相邻的前一帧的语音数据进行解码,得到所述第二目标帧相邻的前一帧的解码状态,所述第二目标帧相邻的前一帧的解码状态用于作为所述第二目标帧对应的音频特征。8.根据权利要求1至7任一所述的方法,其特征在于,所述获取目标文本,包括:接收终端设备发送的目标文本。9.根据权利要求1至7任一所述的方法,其特征在于,所述获取目标文本,包括:显示文本输入框以及文本输入指示,所述目标指示用于指示用户在所述文本输入框中输入供虚拟人物演示的文本;获取用户在所述文本输入框输入的目标文本。10.根据权利要求1至9任一所述的方法,其特征在于,所述目标文本用于供虚拟人物在N帧内演示,所述视频包括N帧,所述N帧中的每一帧为所述图像帧集合中的一帧。11.一种虚拟人物生成装置,其特征在于,所述装置包括:获取模块,用于获取目标文本;文本转语音TTS模块,用于根据文本转语音TTS模型,对所述目标文本进行...

【专利技术属性】
技术研发人员:黄涛肖甫赵文斌
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1