面部表情图像生成方法及其装置、设备、介质、产品制造方法及图纸

技术编号：36742128 阅读：19 留言：0更新日期：2023-03-04 10:20

本申请涉及一种面部表情图像生成方法及其装置、设备、介质、产品，所述方法包括：获取音频数据的语音特征序列，所述语音特征序列中包含多个时序相对应的语音帧的特征编码信息；根据语音特征序列的浅层语义信息确定出每一时序下的人声活动状态；根据语音特征序列的深层语义信息确定出预设的变形目标集在每一时序下的形变向量，所述形变向量包括用于对应控制各个变形目标产生相应形变的各个形变参数；根据每个时序的人声活动状态控制相应时序下的形变向量对变形目标集的应用，获得面部表情图像。本申请能够根据音频数据准确细腻地协同声音与面部表情图像的配合，使所生成的面部表情动画更为自然流畅，适于实现基于虚拟人的各种应用场景。应用场景。应用场景。

全部详细技术资料下载

【技术实现步骤摘要】
面部表情图像生成方法及其装置、设备、介质、产品

[0001]本申请涉及动画处理技术，尤其涉及一种面部表情图像生成方法及其装置、设备、介质、产品。

技术介绍

[0002]动画中的人物面部表情的自动生成，传统的方式是依赖视频驱动的方式，通过采集实录视频图像中的人物面部表情来制作动画中的人物面部表情，这种方式运算量较大，成本也高。
[0003]一种基于变形目标(又称混合形状，英文为Blendshape)的技术应运而生，该技术将人脸三维模型中的网格相对应的面部图像分解为多个具有不同情态的一组变形目标，每个变形目标可以理解为演示不同表情动作的人脸图像，通过为其中的每个变形目标适配不同形变参数，改变各个变形目标中脸部各个部位的形状，可以使整组变形目标共同呈现出同一张面部表情图像，多个这样的面部表情图像按时序播放便形成表情动画。所述的形变参数作用于人脸三维模型中的网格的相应顶点，使相邻两个时序下的面部表情图像产生变化过程，从而使表情动画的过渡更为自然。
[0004]基于这一技术，产生了语音驱动表情变化的应用，例如元宇宙虚拟...

【技术保护点】

【技术特征摘要】
1.一种面部表情图像生成方法，其特征在于，包括：获取音频数据的语音特征序列，所述语音特征序列中包含按照预设频率采样获得的多个时序相对应的语音帧的特征编码信息；根据所述语音特征序列的浅层语义信息确定出每一时序下相对应的人声活动状态，所述人声活动状态表征有人声状态或无人声状态；根据所述语音特征序列的深层语义信息确定出预设的变形目标集在每一时序下的形变向量，所述形变向量包括用于对应控制所述变形目标集中各个变形目标产生相应形变的各个形变参数；根据每个时序相对应的所述人声活动状态控制相应时序下的形变向量对所述变形目标集的应用，获得相应时序的面部表情图像。2.根据权利要求1所述的面部表情图像生成方法，其特征在于，获取音频数据的语音特征序列，包括：获取录音设备产生的音频数据；根据预设频率对所述音频数据进行采样，获得语音帧序列，其中包含多个时序相对应的语音帧；对所述语音帧中的语音特征进行编码，获得特征编码信息，由各个时序的特征编码信息构成所述语音特征序列。3.根据权利要求1所述的面部表情图像生成方法，其特征在于，根据所述语音特征序列的浅层语义信息确定出每一时序下相对应的人声活动状态，所述人声活动状态表征有人声状态或无人声状态，包括：采用预设的表情控制模型中的卷积神经网络对所述语音特征序列提取各个时序相对应的初始特征信息；采用所述表情控制模型中的第一循环网络关联上下文对所述语音特征序列各个时序的初始特征信息进行特征提取，获得各个时序相对应的浅层语义信息；采用所述表情控制模型中的分类器，将各个时序的浅层语义信息映射到预设的分类空间，获得其中对应有人声状态和无人声状态两个分类的分类概率；确定每个时序中分类概率最大的分类所对应的状态为相应时序下的人声活动状态。4.根据权利要求3所述的面部表情图像生成方法，其特征在于，根据所述语音特征序列的深层语义信息确定出预设的变形目标集在每一时序下的形变向量，包括：采用所述表情控制模型中的第二循环网络关联上下文对所述语音特征序列各个时序的浅层语义信息进行特征压缩，获得各个时序相对应的深层语义信息，所述深层语义信息的维度与所述变形目标集中变形目标的总量相对应；将各个时序的深层语义信息转换为相应时序的形变向量，使深层语义信息中的元素与形变向量中的形变参数一一对应。5.根据权利要求1所述的面部表情图像生成方法，其特征在于，根据每个时序相对应的所述人声活动状态控制相应时序下的形变向量对所述变形目标集的应用，获得相应时序的面部表情图像，包括：当人声活动状态表征从前一时序的无人声状态切换为当前时序的有人声状态时，启动发声节奏控制程序，以在第一时序数量范围内，将每个当前时序的形变向量与其前一时序
的实际作用的形变向量进行平滑加权，获得当前时序实际作用的形变向量后应用于所述变形目标集；当人声活动状态表征从前一时序的有人声状态维持为当前时序的有人声状态，且发声节奏控制程序前导执行完毕时，为所述变形目标集应用当前时序相对应的形变向量；当人声活动状态表征从前一时序的有人声状态切换为当前时序的无人声状态时，启动静音节奏控制程序，以在第二时序数量范围内，将每个当前时序的形变向量与其前一时序的...

【专利技术属性】
技术研发人员：冯进亨，戴长军，林绪虹，
申请(专利权)人：广州欢聚时代信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人