【技术实现步骤摘要】
一种动画生成方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,具体而言,涉及一种动画生成方法、装置、电子设备及存储介质。
技术介绍
[0002]随着视频行业的大力发展,越来越多的视频场景需要伴随有虚拟人脸出现在视频中,并同步视频中的言语而运动。人在说话时往往伴随有大量非言语行为,这些因言语活动而产生的非言语行为被称为副语言行为。这些行为动作包括手势、面部表情、头部运动(如点头和摇头)以及眨眼等。为了获得更加自然的人脸动画,这些副语言运动是不可或缺的。因此,需要将虚拟人脸的副语言运动与语音进行同步运动。
[0003]现有的过程式方法大多利用简易的噪声函数或重放视频的方式,生成的动画效果重复且不自然。另有,通过表演捕捉获得面部表情的动作,但动作的质量非常依赖于演员的能力。此外,大多数这类方法直接生成三维网格模型,动画师难以理解所用参数的含义,也难以修改生成的结果,因此难以与传统动画制作流程相结合。因此,如何基于语音同步驱动虚拟人脸进行更自然的副语言运动,成为视频动画领域需要解决的问题。
技术实现思路
[0004]本公开实施例提供一种动画生成方法、装置、电子设备及存储介质动画生成方法,该方法通过提取语音音频中的音频特征,驱动虚拟人的脸部进行同步运动,使得脸部副语言行为更加自然。
[0005]根据本公开实施例的第一方面,提供一种动画生成方法,包括:获取语音音频以及与所述语音音频对应的语音音频文本信息文本信息,将所述语音音频与所述文本信息对应的音素序列对齐;基于对齐后的所述音 ...
【技术保护点】
【技术特征摘要】
1.一种动画生成方法,其特征在于,包括:获取语音音频以及与所述语音音频对应的文本信息,将所述语音音频与所述文本信息对应的音素序列对齐;基于对齐后的所述音素序列对所述语音音频进行音频分析,提取所述语音音频中的音频特征信息;基于所述音频特征信息,驱动虚拟形象进行同步运动。2.根据权利要求1所述的方法,其特征在于,所述基于对齐后的所述音素序列对所述语音音频进行音频分析,提取所述语音音频中的音频特征信息,包括:获取所述语音音频的声学参数;根据所述声学参数和所述对齐后的音素序列,确定所述语音音频中的至少一个音节核;对各个所述音节核的音高运动进行模式化处理,得到所述音节核的音高运动模式化曲线;基于音高运动阈值,根据所述音节核的音高运动模式化曲线,对所述音节核的音高运动进行标记,得到所述音节核对应的音高运动标识;所述音高运动阈值为对音高运动幅度大小进行衡量的阈值;将所述音节核的音高运动模式化曲线和所述音高运动标识作为所述音频特征信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述声学参数和所述对齐后的音素序列,确定所述语音音频中的至少一个音节核,包括:根据所述声学参数和所述对齐后的音素序列,确定元音对应的音量峰值;以所述元音对应的音量峰值为中心,确定所述音量峰值前后音量下降到预设音量阈值的范围内所对应的语音音频为所述音节核。4.根据权利要求2所述的方法,其特征在于,所述对各个所述音节核的音高运动进行模式化处理,得到所述音节核的音高运动模式化曲线,包括:根据所述音节核的基频曲线,将所述音节核划分为至少一个时间段;当所述时间段所对应的基频曲线斜率大于滑音阈值时,确定所述时间段为滑音段;以所述时间段起止时间点对应的基频值之间的连线,为所述时间段对应的所述音高运动模式化曲线;当所述时间段所对应的基频曲线斜率不大于所述滑音阈值时,确定所述时间段为非滑音段;以所述时间段起止时间点之间的水平直线,为所述时间段对应的所述音高运动模式化曲线;将各个所述时间段对应的所述音高运动模式化曲线的组合作为所述音节核的音高运动模式化曲线。5.根据权利要求4所述的方法,其特征在于,所述根据所述音节核的基频曲线,将所述音节核划分为至少一个时间段,包括:确定所述音节核中第一时间段的起止时间点;连接所述第一时间段起止时间点对应的基频值之间的第一时间段连线;所述第一时间段为所述音节核中任一已划分时间段;在所述第一时间段对应的基频曲线上,确定距离所述第一时间段连线最远的点为待定拐点;
当所述待定拐点满足预设的拐点条件时,基于所述待定拐点将所述第一时间段划分为两个时间段;重复上述步骤,直至没有满足所述拐点条件的待定拐点。6.根据权利要求5所述的方法,其特征在于,所述拐点条件包括以下至少一个条件:所述待定拐点与所述第一时间段连线的距离大于预设距离阈值;所述待定拐点与所述第一时间段的起止时间点的时间间隔大于预设时间阈值;基于所述待定拐点将所述第一时间段划分为的两个时间段中,至少一个时间段为所述滑音段;基于所述待定拐点将所述第一时间段划分为的两个时间段所对应的基频曲线斜率差大于预设斜率差阈值。7.根据权利要求4所述的方法,其特征在于,所述基于音高运动阈值,根据所述音节核的音高运动模式化曲线,对所述音节核的音高运动进行标记,得到所述音节核对应的音高运动标识,包括:确定所述音节核的音高运动模式化曲线中,音高运动幅度最大的时间段;基于所述音高运动阈值,对所述幅度最大时间段的音高运动进行标...
【专利技术属性】
技术研发人员:雷诚,李志航,张慧,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。