一种动画生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39929146 阅读：6 留言：0更新日期：2024-01-08 21:40

本公开关于一种动画生成方法、装置、电子设备及存储介质，该方法包括：将待处理的音频信息解析为音素序列，根据预设的音素和视素的对应关系，确定音素序列中的各个音素对应的视素，并确定各个视素对应的视素时间段；根据预设的视素和面部动作单元的对应关系，确定视素包括的至少一个面部动作单元，并根据至少一个面部动作单元，将视素幅度值曲线转换为目标面部动作单元曲线；根据目标面部动作单元曲线驱动预设的三维面部模型，得到音频信息对应的动画视频。本公开采用过程式动画生成方法，便于用户将该方法与传统动画制作流程相结合，并修改生成的结果；并且将面部动作作为运动基来驱动三维面部模型，从而得到真实且自然的动画视频。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及动画，尤其涉及一种动画生成方法、装置、电子设备及存储介质。

技术介绍

1、由于面部在信息传递中起着重要作用，关于人脸动画的研究也逐渐成为计算机图形学的一个研究热点。这种重要作用也让观众对动画角色的面部非常敏感。

2、目前，工业界制作三维人脸动画大多依靠关键帧动画或表演捕捉。关键帧动画是靠动画师手工设置和调整关键帧实现的，这种方法既能制作高表现力动画又能轻松进行修改编辑，但费时费力且成本高昂。表演捕捉能较为容易地获得面部表情的动作，但动作的质量非常依赖于演员的能力，动画师很难修改通过表演捕捉获得的动作数据。

3、此外，目前人脸动画领域最常用且最通用的实现方式是使用形状融合技术。该技术将各个视素作为动作基，将视素幅度值作为动作权重，驱动面部模型获得每帧的动画动作。然而，直接将视素作为运动基存在一些问题。首先，不同视素的时间范围会出现重叠，导致其幅度值曲线在时间上也会出现重叠，从而导致面部模型出现错误的运动；其次，采用视素驱动运动幅度较大的面部动作，会因运动速度过快使得动画动作不自然。

4、综上，现有的三维人脸动画生成方法存在难以与传统动画制作流程相结合、难以修改生成的结果的问题，以及动画动作错误和动作不自然的问题。

技术实现思路

1、本公开提供动画生成方法、装置、电子设备及存储介质，以至少解决现有的三维人脸动画生成方法存在难以与传统动画制作流程相结合、难以修改生成的结果的问题，以及动画动作错误和动作不自然的问题。本公开的技术方案如下：>

2、根据本公开实施例的第一方面，提供一种动画生成方法，所述方法包括：

3、将待处理的音频信息解析为音素序列，所述音素序列中的音素信息包括：音素及所述音素对应的音素时间段；

4、根据预设的音素和视素的对应关系，确定所述音素序列中的各个音素对应的视素，并根据所述音素和所述音素时间段确定各个所述视素对应的视素时间段；所述视素为发音时的嘴部动作；

5、根据所述音素发音时的嘴部动作幅度确定各个所述视素的视素幅度值，并根据所述视素幅度值和所述视素时间段，分别生成各个所述视素对应的视素幅度值曲线；

6、根据预设的视素和面部动作单元的对应关系，确定所述视素包括的至少一个面部动作单元，并根据所述至少一个面部动作单元，将所述视素幅度值曲线转换为目标面部动作单元曲线；所述面部动作单元为用于组成人脸表情的面部肌肉动作的最小单位；

7、根据所述目标面部动作单元曲线驱动预设的三维面部模型，得到所述音频信息对应的动画视频。

8、可选地，所述待处理的音频信息为汉语音频信息，所述将待处理的音频信息解析为音素序列，包括：

9、对所述汉语音频信息进行文本识别，得到对应的汉字文本信息；

10、将所述汉字文本信息转换为拼音信息；

11、根据预设的单个汉字的拼音到元辅音序列的映射关系，获取所述拼音信息的元音和辅音，并将所述元音和辅音作为所述拼音信息的音素信息；所述元辅音序列为元音和辅音组成的序列；

12、将所述音素信息与所述汉语音频信息对齐，得到各个音素的发音时间段；

13、根据所述音素信息以及所述音素信息对应的发音时间段，确定所述汉语音频信息对应的音素序列。

14、可选地，所述根据所述音素和所述音素时间段确定各个所述视素对应的视素时间段，包括：

15、对于所述音素序列中的每个音素，当所述音素时间段对应的音素时长大于或等于预设的帧时长，且所述音素是预设的发音约束音素时，按照所述发音约束音素对应的发音规则确定所述音素包括的视素的视素时间段；所述发音约束音素为发音时受到预设的发音规则约束的音素；

16、当所述音素时长大于或等于预设的帧时长，且所述音素不是所述发音约束音素且不是停顿音时，利用预设的音素视素对齐规则确定所述音素包括的视素的视素时间段；

17、当所述音素时长大于或等于预设的帧时长，且所述音素是所述停顿音，且所述音素时长小于预设的停顿时长时，将所述音素对应的视素替换为所述音素在所述音素序列中的上一个视素或下一个视素，并根据所述音素时长确定所述上一个视素的视素时长或所述下一个视素的视素时长。

18、可选地，所述根据所述音素和所述音素时间段确定各个所述视素对应的视素时间段，还包括：

19、对于所述音素序列中的每个音素，当所述音素时间段对应的音素时长小于预设的帧时长时，将所述音素对应的视素的视素时间段设置为0。

20、可选地，所述音素包括第一类别、第二类别和第三类别，所述第一类别包括双唇音、唇齿音和咝音，所述第二类别包括除所述第一类别以外的辅音、时长小于预设第一时长的元音，所述第三类别包括时长大于或等于所述第一时长的元音；

21、所述根据所述音素发音时的嘴部动作幅度确定各个所述视素的视素幅度值，包括：

22、将所述第一类别的音素的视素幅度值设置为预设的所述视素的标准幅度值的m倍；1＜m＜2；

23、将所述第二类别的音素的视素幅度值设置为预设的所述视素的标准幅度值的n倍；0＜n＜1；

24、确定所述第三类别的音素的音节轻重读类别；

25、当所述第三类别的音素为轻读时，将所述视素幅度值设置为预设的所述视素的标准幅度值的n倍；当所述第三类别的音素为重读时，将所述视素幅度值设置为所述标准幅度值的m倍；当所述第三类别的音素不是轻读或重读时，将所述视素幅度值设置为所述标准幅度值。

26、可选地，所述根据所述音素序列中包括的各个所述视素的所述视素幅度值和所述视素时间段，分别生成各个所述视素对应的视素幅度值曲线，包括：

27、在每个视素的所述视素时间段往前预设第二时长处和衰减后往后所述第二时长处分别设置边界关键帧，并将所述边界关键帧的幅度值设置为0；

28、确定所述视素时间段的视素时长；

29、当所述视素时长大于或等于预设第三时长时，在所述视素的发音开始时刻处设置第一内部关键帧，在目标位置对应的时刻处设置第二内部关键帧；所述目标位置为所述发音时间段的前p％时间段；p＞0；

30、将所述第一内部关键帧的幅度值设置为所述视素幅度值，将所述第二内部关键帧的幅度值设置为所述视素幅度值的q％；q＞0；

31、将所述边界关键帧、所述第一内部关键帧、所述第二内部关键帧的幅度值对应的点用平滑的曲线连接起来，得到所述视素对应的幅度值曲线。

32、可选地，在将所述边界关键帧的幅度值设置为0之后，还包括：

33、当所述视素时间段小于所述第三时长时，将所述视素的发音开始时刻设置为第一内部关键帧，并将所述第一内部关键帧的幅度值设置为所述视素幅度值；

34、将所述边界关键帧、所述第一内部关键帧的幅度值对应的点用所述平滑的曲线连接起来，得到所述视素对应的幅度值曲线。

35、可选地，在分别生成各个所述视素对应的视素幅度值曲线之后本文档来自技高网...

【技术保护点】

1.一种动画生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述待处理的音频信息为汉语音频信息，所述将待处理的音频信息解析为音素序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述音素和所述音素时间段确定各个所述视素对应的视素时间段，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述音素和所述音素时间段确定各个所述视素对应的视素时间段，还包括：

5.根据权利要求1所述的方法，其特征在于，所述音素包括第一类别、第二类别和第三类别，所述第一类别包括双唇音、唇齿音和咝音，所述第二类别包括除所述第一类别以外的辅音、时长小于预设第一时长的元音，所述第三类别包括时长大于或等于所述第一时长的元音；

6.根据权利要求1所述的方法，其特征在于，所述根据所述音素序列中包括的各个所述视素的所述视素幅度值和所述视素时间段，分别生成各个所述视素对应的视素幅度值曲线，包括：

7.根据权利要求6所述的方法，其特征在于，在将所述边界关键帧的幅度值设置为0之后，还包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个面部动作单元，将所述视素幅度值曲线转换为目标面部动作单元曲线，包括：

10.根据权利要求9所述的方法，其特征在于，在得到第二面部动作单元曲线之后，还包括：

11.根据权利要求10所述的方法，其特征在于，所述预设时长为tw，所述利用预设时长的滑动窗口对所述第二面部动作单元曲线进行平滑处理，包括：

12.根据权利要求9所述的方法，其特征在于，在根据预设优先规则调整所述目标视频帧的幅度值之后，还包括：

13.根据权利要求9所述的方法，其特征在于，所述按照预设的约束规则，调整所述第二面部动作单元曲线中的发音约束动作对应的约束时间段的幅度值，包括：

14.根据权利要求13所述的方法，其特征在于，在根据所述约束幅度值的连线得到约束曲线段之后，还包括：

15.根据权利要求13所述的方法，其特征在于，所述按照预设规则在所述前内部关键帧的和所述后内部关键帧之间插入新关键帧，包括：

16.根据权利要求9所述的方法，其特征在于，所述根据预设优先规则调整所述目标视频帧的幅度值，包括：

17.根据权利要求1所述的方法，其特征在于，所述根据所述目标面部动作单元曲线驱动预设的三维面部模型，得到所述音频信息对应的动画视频，包括：

18.一种动画制作装置，其特征在于，所述装置包括：

19.一种电子设备，其特征在于，包括：

20.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至17中任一项所述的动画生成方法。

...

【技术特征摘要】

1.一种动画生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述待处理的音频信息为汉语音频信息，所述将待处理的音频信息解析为音素序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述音素和所述音素时间段确定各个所述视素对应的视素时间段，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述音素和所述音素时间段确定各个所述视素对应的视素时间段，还包括：

7.根据权利要求6所述的方法，其特征在于，在将所述边界关键帧的幅度值设置为0之后，还包括：

8.根据权利要求6所述的方法，其特征在于，在分别生成各个所述视素对应的视素幅度值曲线之后，还包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个面部动作单元，将所述视素幅度值曲线转换为目标面部动作单元曲线，包括：

10.根据权利要求9所述的方法，其...

【专利技术属性】
技术研发人员：雷诚，李志航，张慧，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人