【技术实现步骤摘要】
语音动画生成方法、装置、电子设备和介质
[0001]本申请涉及计算机
,具体涉及一种语音动画生成方法、装置、电子设备和介质。
技术介绍
[0002]语音动画(Speech
‑
driven animation)指的是通过自然语言处理和计算机图形学技术,将声音信号转化为人类可视化的动画如唇形动画等。语音动画常被应用于电影、游戏、动漫、虚拟直播、虚拟现实等领域,以使动画中的人物能够模拟真人发音时的动画效果。例如,在虚拟现实技术中,动画师可以手工制作每一帧音频对应的唇形动画,或可以通过动作捕捉演员基于音频的表演内容,将演员的表情迁移到虚拟人物上,以生成虚拟人物的唇形动画。
[0003]然而,现有生成语音动画的方法如通过人工制作唇形动画或通过动作捕捉制作唇形动画存在一定误差,制作出来的语音动画存在唇形不准确的问题。
技术实现思路
[0004]本申请实施例提供一种语音动画生成方法、装置、电子设备和介质,可以提升制作语音动画的准确性。
[0005]本申请实施例提供一种语音动画生成方法 ...
【技术保护点】
【技术特征摘要】
1.一种语音动画生成方法,其特征在于,包括:获取特征提取网络和视素生成网络;通过第一音频数据、以及所述第一音频数据对应的口型标签,训练所述特征提取网络,得到训练后的特征提取网络;由所述训练后的特征提取网络,从第二音频数据中提取音素特征;由所述视素生成网络,生成所述音素特征对应的视素特征;通过所述视素特征、以及所述第二音频数据对应的音素标签,训练所述视素生成网络,得到训练后的视素生成网络,以便将所述训练后的特征提取网络以及所述训练后的视素生成网络用于生成语音动画。2.如权利要求1所述的语音动画生成方法,其特征在于,所述通过第一音频数据、以及所述第一音频数据对应的口型标签,训练所述特征提取网络,得到训练后的特征提取网络,包括:由所述特征提取网络,从所述第一音频数据中提取音素特征序列;确定所述音素特征序列对应的预测口型;通过所述预测口型与所述第一音频数据对应的口型标签之间的差异度,调整所述特征提取网络的网络参数,得到训练后的特征提取网络。3.如权利要求2所述的语音动画生成方法,其特征在于,所述由所述特征提取网络,从所述第一音频数据中提取音素特征序列,包括:由所述特征提取网络,从所述第一音频数据中提取初始音素特征序列;对所述初始音素特征序列中的初始音素特征进行前向传播,得到前向隐向量;由所述前向隐向量拼接得到音素特征序列。4.如权利要求2所述的语音动画生成方法,其特征在于,所述确定所述音素特征序列对应的口型类型,包括:对所述音素特征序列进行第一回归处理,得到所述音素特征序列对应的预测口型。5.如权利要求1所述的语音动画生成方法,其特征在于,所述由所述视素生成网络,生成所述音素特征对应的视素特征,包括:通过所述视素生成网络,对所述音素特征以及所述音素标签进行第二回归处理,得到线性映射矩阵;对所述音素特征以及所述线性映射矩阵进行乘积运算,得到所述音素特征对应的视素特征。6.如权利要求1所述的语音动画生成方法,其特征在于,所述通过所述视素特征、以及所述第二音频数据对应的音素标签,训练所述视素生成网络,得到训练后的视素生成网络之前,还包括:从所述第二音频数据中提取每个音素的音频帧;对所述音素的音频帧进行编码,得到编码向量;将所述编码向量作为所述第二音频数据对应的音素标签。7.如权利要求6所述的语音动画生成方法,其特征在于,所述对所述音素的音频帧进行编码,得到编码向量,包括:从每个所述音素的音频帧中,确定每个所述音素的中间音频帧;
对所述中间音频帧进行编码,得到所述编码向量。8.如权利要求1~7任一项所述的语音动画生成方法,其特征在于,所述通过所述视素特征、以...
【专利技术属性】
技术研发人员:廖家聪,丘国辰,付星辉,孙钟前,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。