当前位置: 首页 > 专利查询>合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室专利>正文

一种3D人脸动画合成方法及系统技术方案

技术编号：29406557 阅读：108 留言：0更新日期：2021-07-23 22:45

本发明专利技术公开了一种3D人脸动画合成方法及系统，属于人工智能技术领域，包括：采集用户语音的音频特征和文本的韵律特征；将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。本发明专利技术采用发音器官的运动轨迹作为3D人脸模型动画参数，通过运动轨迹驱动3D人脸模型实现唇音同步的人脸动画，大大减少了计算量。

全部详细技术资料下载

【技术实现步骤摘要】
一种3D人脸动画合成方法及系统
本专利技术涉及人工智能
，特别涉及一种3D人脸动画合成方法及系统。
技术介绍
与单独的语音相比，唇音同步的语音动画能够增强在噪音情况下语音的理解性，更好地吸引用户的注意力，从而更好地实现人机交互。然而，合成唇音同步的语音动画，关键的问题是实现语音特征到视觉特征的转换(audio-to-visualconversion)。对于传统视素的方法，需要为每一个音素建立相应的视素。合成动画时，直接将音素映射到视素，然后通过主观定义的平滑函数或是协同发音模型实现连续的动画合成。然而此方法需要对每个音素建立相应的视素，导致大量计算的耗费，同时对动画制作者的专业水平要求较高，影响其广泛应用。为了减少模型的计算量，研究者探索基于数据驱动的人脸动画合成方法，即利用语音信息实现3D人脸模型人脸动画参数的映射，再由人脸动画参数控制人脸面部运动，从而实现动画的合成。然而人们对声音与唇部动作是否一致十分敏感，采用单模态信息并不能实现高精度的人脸动画参数的映射，影响动画的真实感。
技术实现思路
本专利技术的目的在于克服上述
技术介绍
中的不足，以减少计算量并提高合成动画的真实感。为实现以上目的，一方面，采用一种3D人脸动画合成方法，包括如下步骤：采集用户语音的音频特征和文本的韵律特征；将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。r>进一步地，所述轨迹预测网络包括瓶颈网络和LTRCNN网络，所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹，所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。进一步地，所述LTRCNN网络包括跨模态编码器和轨迹预测解码器，跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接，轨迹预测解码器的输出为所述发音器官运动轨迹。进一步地，在所述采集用户语音的音频特征和文本的韵律特征之前，还包括：采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据；对语音信号和文本数据分别进行特征提取，得到语音信号的音频特征和文本数据对应的韵律特征，并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合；利用样本集合中的样本数据对所述轨迹预测网络进行训练，得到所述训练好的轨迹预测网络。进一步地，所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据，包括：利用电磁发音动作描迹仪(Electro-MagneticArticulatory，EMA)设备采集所述被试用户的发音器官运动轨迹数据；利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号；利用语音识别技术对所述被试用户的语音信号进行文本合成，得到所述语音信号对应的文本数据。进一步地，所述EMA设备的电磁换能器线圈放在所述被试用户的舌根的矢状面中线位置、舌中矢状面中线位置、舌尖矢状面中线位置、下颚矢状面中线位置、下唇矢状面中线位置以及上唇的矢状面中线位置。进一步地，所述轨迹预测网络在欧氏距离损失的监督下完成训练，欧式距离损失函数为：其中，和分别表示预测得到的发音器官运动x坐标和z坐标，x′和z′代表真实的发音器官运动x坐标和z坐标。另一方面，采用一种3D人脸动画合成系统，包括数据采集模块、运动轨迹预测模块和动画合成模块，其中：数据采集模块用于采集用户语音的音频特征和文本的韵律特征；运动轨迹预测模块用于将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；动画合成模块用于利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。进一步地，所述轨迹预测网络包括瓶颈网络和LTRCNN网络，所述LTRCNN网络包括跨模态编码器和轨迹预测解码器，所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹，跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接，轨迹预测解码器的输出为所述发音器官运动轨迹。进一步地，还包括网络训练模块，其用于对所述轨迹预测网络进行训练，得到训练好的轨迹预测网络，所述轨迹预测网络在欧氏距离损失的监督下完成训练，欧式距离损失函数为：其中，和分别表示预测得到的发音器官运动x坐标和z坐标，x′和z′代表真实的发音器官运动x坐标和z坐标。与现有技术相比，本专利技术存在以下技术效果：本专利技术采用发音器官的运动轨迹作为3D人脸模型动画参数，通过运动轨迹驱动3D人脸模型实现唇音同步的人脸动画，可以大大减少计算量，提高方法的实用性。附图说明下面结合附图，对本专利技术的具体实施方式进行详细描述：图1是一种3D人脸动画合成方法的流程图；图2是跨模态发音器官运动轨迹驱动的整体框架图；图3是采集发音器官点的位置信息示意图；图4是“a”音素对应的发音器官运动示意图；图5是“b”音素对应的发音器官运动示意图；图6是一种3D人脸动画合成系统的结构图。具体实施方式以下结合附图对本专利技术实施方式的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本专利技术实施方式，并不用于限制本专利技术实施方式。在本专利技术实施方式中，在未作相反说明的情况下，使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。另外，若本专利技术实施方式中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本专利技术要求的保护范围之内。如图1所示，本实施例公开了一种3D人脸动画合成方法，包括如下步骤S1至S3：S1、采集用户语音的音频特征和文本的韵律特征；S2、将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；S3、利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。本实施例采用发音器官运动轨迹作为人脸动画参数，利用预测得到的发音器官运动轨迹实现3D人脸动画合成，大大减少了建模过程的计算量。...

【技术保护点】
1.一种3D人脸动画合成方法，其特征在于，包括：/n采集用户语音的音频特征和文本的韵律特征；/n将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；/n利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。/n

【技术特征摘要】
1.一种3D人脸动画合成方法，其特征在于，包括：
采集用户语音的音频特征和文本的韵律特征；
将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；
利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。

2.如权利要求1所述的3D人脸动画合成方法，其特征在于，所述轨迹预测网络包括瓶颈网络和LTRCNN网络，所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹，所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。

3.如权利要求2所述的3D人脸动画合成方法，其特征在于，所述LTRCNN网络包括跨模态编码器和轨迹预测解码器，跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接，轨迹预测解码器的输出为所述发音器官运动轨迹。

4.如权利要求1所述的3D人脸动画合成方法，其特征在于，在所述采集用户语音的音频特征和文本的韵律特征之前，还包括：
采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据；
对语音信号和文本数据分别进行特征提取，得到语音信号的音频特征和文本数据对应的韵律特征，并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合；
利用样本集合中的样本数据对所述轨迹预测网络进行训练，得到所述训练好的轨迹预测网络。

5.如权利要求4所述的3D人脸动画合成方法，其特征在于，所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据，包括：
利用EMA设备采集所述被试用户的发音器官运动轨迹数据；
利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号；
利用语音识别技术对所述被试用户的语音信号进...

【专利技术属性】
技术研发人员：于灵云，
申请(专利权)人：合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人