一种基于唇形同步的智能动画生成方法及系统技术方案

技术编号:37290597 阅读:18 留言:0更新日期:2023-04-21 02:18
本发明专利技术涉及智能动画生成领域的一种基于唇形同步的智能动画生成方法及系统,因为本发明专利技术结合了中文的发音规则,通过中文特有的发音口型,使得不需要大量数据来提取人类发音的口型特征,只需要分析中文和对应的音频之间的关系,既可以得到驱动脸部参数模型的数据,现有的很多软件均自带模型驱动引擎,只需要建立一个基础模型和相应的表情基规则,把相应的驱动数据放进相应的引擎中即可渲染出精美的动画,这样在保证动画生动形象的同时,解决了基于数据驱动的方法需要大量数据的问题。据驱动的方法需要大量数据的问题。据驱动的方法需要大量数据的问题。

【技术实现步骤摘要】
一种基于唇形同步的智能动画生成方法及系统


[0001]本专利技术涉及智能动画生成领域,具体涉及一种基于唇形同步的智能动画生成方法及系统。

技术介绍

[0002]唇型同步也称为口形同步(简称唇同步),是通过讲、唱歌和口语的人声嘴唇动作从而匹配的技术,而音频输入驱动面部的表情一直是计算机视觉和图形学的重要研究兴趣,随着人工智能和神经网络的发展,当前的主流方法是利用人脸识别的关键点定位方法对人物的面部状态进行定位,即通过输入的音频驱动嘴部的关键点运动,在确定关键点后通过使用3D建模或神经网络生成模型等方法进行对应嘴部状态的重建,从而达到音频驱动唇形同步的效果。
[0003]目前,完成一部动画的制作,需要制作人有比较专业的动画制作技能,同时需要人工把制作的意图写成文字剧本,再通过专业人员把剧本的元素通过制作工具串联起来,达到动画制作的目的,因此通常会使用到其一:基于数据驱动的方法,基于数据驱动的方法在建立模型的训练阶段需要大量的原始数据,最后生成的动画的生动性跟数据量的大小有密切的关系,由于数据量大,这也导致在提取特征的途中需要较大的数据存储空间和计算,所以对于硬件的要求也非常高,且收集数据的环境要求也非常高,需要一定的灯光条件和摄像条件,其二:基于模型参数的方法,与数据驱动不同的是不需要大量的数据支撑,通过音频数据和参数模型之间的参数变化进行提取相应的特征,但其提取时数据的不全面导致提取的特征存在不准确的现象,影响动画的真实感,因此需要对其唇形同步的智能动画生成进行改进。

技术实现思路

[0004]本专利技术的目的是解决以上缺陷,提供一种基于唇形同步的智能动画生成方法及系统,以解决上述
技术介绍
中提到的问题。
[0005]本专利技术的目的是通过以下方式实现的:
[0006]一种基于唇形同步的智能动画生成方法,包括以下步骤:
[0007]步骤1:根据声韵母的嘴型发音规则,统概出十个常用口型,将获取的发音口型输入第一获取单元,将嘴唇动作的音频帧和口型帧对齐,根据中文发音习惯将嘴唇动作产生的声韵母产生的发音通过接收单元输入对应的第一获取单元,并对多帧的发音口型进行预处理;
[0008]步骤2:将获取的发音口型进行建模,将发音口型结合MAYA的软件进行建模,通过MAYA软件内部的变形器使其实现对应的修改,从而得到相应特有的表情基BlendShape;
[0009]步骤3:获取中文在音频数列之间的时间节点,通过检索单元分析对应的音频帧中文字符,得到“对应的声波”,并通过深度分析将声波对应的拼音中产生的声母和韵母相关的时间节点进行标识,得到对应时间序列;
[0010]步骤4:结合时间节点和发音口型对应的表情基BlendShape,通过驱动模块进行驱动后得到相应的驱动模型数据;
[0011]步骤5:计算驱动模型数据,将驱动模型数据通过渲染引擎模块进行计算后得到对应的动画效果。
[0012]上述说明中进一步的,所述步骤1中,发音口型为嘴唇动作产生的声韵母,将声韵母划分为十个等级:
[0013]声母第一类:['b','p','m']、声母第二类:['f']、声母第三类:['d','t','n','l']、声母第四类:['zh','sh','ch','r']、声母第五类:['y','j','q','x','z','c','s']、声母第六类:['g','k','h']、韵母第一类:
[0014]['iang','uang','iao','ian','uai','uan','van','ang','ia','ai','ao','an','ua','a']、韵母第二类:
[0015]['w','iong','ueng','iou','ong','ve','ou','uo','ui','un','iu','u','v','o']、韵母第三类:['uei','uen','eng','er','ei','en','e']、韵母第四类:['ing','ie','in','i']。
[0016]上述说明中进一步的,所述步骤2中,通过MAYA的建模统筹分析将发音口型制作得到对应的十个模型形变形态。
[0017]上述说明中进一步的,所述步骤3中,通过对音频数列的分析,即根据声波,每个字的中间均存在一个比较短暂的静音段,通过静音段的切分从而生成“对应的声波”。
[0018]上述说明中进一步的,所述步骤3中,将声波对应拼音的声母韵母的时间节点进行标识,标识的时间节点得到对应的时间序列,时间序列控制为60hz,通过时间序列60hz作为时间戳进行切分。
[0019]上述说明中进一步的,所述声母韵母的时间节点分别设置为一和二,即可得到带标识的声母序列和韵母序列,还包括其他时间点为零。
[0020]一种基于唇形同步的智能动画生成系统,该系统应用于所述的一种基于唇形同步的智能动画生成方法,该系统包括接收单元、第一获取单元、检索分析单元和渲染引擎计算单元,通过接收单元接收人们发送的发音口型内容,通过第一获取单元识别获取相应的发音口型,将获取的发音口型通过建模单元进行建模,建模后通过检索分析单元,结合发音口型的进行智能检索后生成相对应的时间序列。
[0021]上述说明中进一步的,所述检索后的时间序列和口型类别通过驱动模块驱动后,渲染引擎计算单元进行计算相应的动画效果。
[0022]上述说明中进一步的,所述接收单元包括语音数据、视频数据或文本数据中的一种或多种。
[0023]本专利技术的有益效果:因为本专利技术结合了中文的发音规则,通过中文特有的发音口型,使得不需要大量数据来提取人类发音的口型特征,只需要分析中文和对应的音频之间的关系,既可以得到驱动脸部参数模型的数据,加上现有的3d模型技术的改进,现有的很多软件均自带模型驱动引擎,只需要建立一个基础模型和相应的表情基规则,把相应的驱动数据放进相应的引擎中即可渲染出精美的动画,这样在保证动画生动形象的同时,解决了基于数据驱动的方法需要大量数据的问题。
附图说明
[0024]图1为本专利技术一种基于唇形同步的智能动画生成系统的流程图;
具体实施方式
[0025]下面结合附图与具体实施方式对本专利技术作进一步详细描述。
[0026]本实施例,参照图1,其具体实施的一种基于唇形同步的智能动画生成方法,包括以下步骤:
[0027]步骤1:根据声韵母的嘴型发音规则,统概出十个常用口型,将获取的发音口型输入第一获取单元,将嘴唇动作的音频帧和口型帧对齐,根据中文发音习惯将嘴唇动作产生的声韵母产生的发音通过接收单元输入对应的第一获取单元,并对多帧的发音口型进行预处理,发音口型为嘴唇动作产生的声韵母,将声韵母划分为十个等级:声母第一类:['b','p','m']、声母第二类:['f']、声母第三类:['d','t','n','l']、声母第四类:['zh','sh','ch','r']、声母第五类:['y','j','q','x','z','c','s']、声母第六类:['g','k','本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于唇形同步的智能动画生成方法,其特征在于,包括以下步骤:步骤1:根据声韵母的嘴型发音规则,统概出十个常用口型,将获取的发音口型输入第一获取单元,将嘴唇动作的音频帧和口型帧对齐,根据中文发音习惯将嘴唇动作产生的声韵母产生的发音通过接收单元输入对应的第一获取单元,并对多帧的发音口型进行预处理;步骤2:将获取的发音口型进行建模,将发音口型结合MAYA的软件进行建模,通过MAYA软件内部的变形器使其实现对应的修改,从而得到相应特有的表情基BlendShape;步骤3:获取中文在音频数列之间的时间节点,通过检索单元分析对应的音频帧中文字符,得到“对应的声波”,并通过深度分析将声波对应的拼音中产生的声母和韵母相关的时间节点进行标识,得到对应时间序列;步骤4:结合时间节点和发音口型对应的表情基BlendShape,通过驱动模块进行驱动后得到相应的驱动模型数据;步骤5:计算驱动模型数据,将驱动模型数据通过渲染引擎模块进行计算后得到对应的动画效果。2.根据权利要求1所述一种基于唇形同步的智能动画生成方法,其特征在于:所述步骤1中,发音口型为嘴唇动作产生的声韵母,将声韵母划分为十个等级。3.根据权利要求1所述一种基于唇形同步的智能动画生成方法,其特征在于:所述步骤2中,通过MAYA的建模统筹分析将发音口型制作得到对应的十个模型形变形态。4.根据权利要求1所述一种基于唇形同步的智能动画生成方法,其特征在于:所述步...

【专利技术属性】
技术研发人员:温倩欣
申请(专利权)人:广州虚拟动力网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1