【技术实现步骤摘要】
一种虚拟人物生成方法及其装置
[0001]本申请涉及电子
,尤其涉及一种虚拟人物生成方法及其装置。
技术介绍
[0002]随着人工智能和智能终端的发展,人机交互越来越多样化,在交互方式上,人们也不满足单维度的听觉上,将文字已视频方式播放,让体验更加饱满。当前已经出现了一些虚拟人物主播,用户可以在网页上输入一段文字,网页可以生成语音以及对应的虚拟人物表情及动作。
[0003]在现有的实现中,虚拟人物的声音及面部特征都基于文本建模,先通过文本转语音(text to speech,TTS)将文本转换为语音,再通过神经网路对语音进行处理来获取图片帧集合,两者融合生成虚拟人物的视频,然而这类方法虚拟人物的嘴型和语音往往不能完全对齐,导致效果不自然。
技术实现思路
[0004]第一方面,本申请提供了一种虚拟人物生成方法,所述方法包括:
[0005]获取目标文本;根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征以及与所述目标文本对应的语音数据,其中,所述TTS模型用于将输入的文本转换为语音数据,所述音频特征为所述TTS模型的中间网络层得到的音频特征,所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种;通过神经网络对所述音频特征进行处理,以获取所述虚拟人物的脸部特征,所述神经网络为预先训练得到的,所述神经网络用于将输入的音频特征转换为脸部特征;根据所述脸部特征,生成所述虚拟人物的图像帧集合,并根据所述图像帧集合和所述语音数据,生成包括所述虚拟 ...
【技术保护点】
【技术特征摘要】
1.一种虚拟人物生成方法,其特征在于,所述方法包括:获取目标文本;根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征以及与所述目标文本对应的语音数据,其中,所述TTS模型用于将输入的文本转换为语音数据,所述音频特征为所述TTS模型的中间网络层得到的音频特征,所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种;通过神经网络对所述音频特征进行处理,以获取所述虚拟人物的脸部特征,所述神经网络为预先训练得到的,所述神经网络用于将输入的音频特征转换为脸部特征;根据所述脸部特征,生成所述虚拟人物的图像帧集合,并根据所述图像帧集合和所述语音数据,生成包括所述虚拟人物的视频。2.根据权利要求1所述的方法,其特征在于,所述目标文本用于供虚拟人物在N帧内演示,所述音频特征的数量为N,且N个音频特征中的每个音频特征对应于所述N帧中的一帧。3.根据权利要求2所述的方法,其特征在于,所述根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征,包括:获取所述目标文本的M个音素;通过神经网络对所述M个音素进行处理,以获取M个特征向量;根据所述M个特征向量,基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度;根据所述关联度和所述M个特征向量,确定所述N帧中每帧的音频特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述关联度和所述M个特征向量,确定所述N帧中每帧的音频特征,包括:根据所述关联度,对所述M个特征向量进行加权求和,以确定所述N帧中每帧的音频特征。5.根据权利要求3或4所述的方法,其特征在于,目标音素为所述M个音素中的任意的一个音素,所述目标音素对应于所述M个特征向量中的目标特征向量,所述目标音素用于供虚拟人物在N帧中的多个帧内演示,且所述目标特征向量在所述M个特征向量中与所述多个帧中的各个帧的关联度最大。6.根据权利要求3至5任一所述的方法,其特征在于,第一目标帧为所述N帧中的任意一帧,所述根据所述M个特征向量,基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度,包括:获取所述第一目标帧相邻的前一帧的语音数据;对所述第一目标帧相邻的前一帧的语音数据进行解码,得到所述第一目标帧相邻的前一帧的解码状态;基于注意力机制,根据所述第一目标帧相邻的前一帧的解码状态与所述M个特征向量中每个特征向量的近似度,确定所述M个特征向量中每个特征向量与所述N帧中各帧的关联度。7.根据权利要求2所述的方法,其特征在于,第二目标帧为所述N帧中的任意一帧,所述根据所述M个特征向量,所述根据文本转语音TTS模型,对所述目标文本进行处理,以获取音频特征,包括:
获取所述第二目标帧相邻的前一帧的语音数据;对所述第二目标帧相邻的前一帧的语音数据进行解码,得到所述第二目标帧相邻的前一帧的解码状态,所述第二目标帧相邻的前一帧的解码状态用于作为所述第二目标帧对应的音频特征。8.根据权利要求1至7任一所述的方法,其特征在于,所述获取目标文本,包括:接收终端设备发送的目标文本。9.根据权利要求1至7任一所述的方法,其特征在于,所述获取目标文本,包括:显示文本输入框以及文本输入指示,所述目标指示用于指示用户在所述文本输入框中输入供虚拟人物演示的文本;获取用户在所述文本输入框输入的目标文本。10.根据权利要求1至9任一所述的方法,其特征在于,所述目标文本用于供虚拟人物在N帧内演示,所述视频包括N帧,所述N帧中的每一帧为所述图像帧集合中的一帧。11.一种虚拟人物生成装置,其特征在于,所述装置包括:获取模块,用于获取目标文本;文本转语音TTS模块,用于根据文本转语音TTS模型,对所述目标文本进行...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。