一种基于音频驱动二次元图片表情及动作的高效方法技术

技术编号：43537014 阅读：13 留言：0更新日期：2024-12-03 12:20

本发明专利技术涉及视频生成技术领域，具体涉及一种基于音频驱动二次元图片表情及动作的高效方法，该方法包括：提取音频数据特征，构建人脸特征序列和姿态序列；输入图片，获得二次元的人脸特征点；将人脸特征和姿态映射到任意二维人物图片的人物特征上，实现精细化快速驱动。本发明专利技术能够在不需要独立建立人物骨骼模型的情况下，实现特征的匹配达到对人物图片的不同情感表达的实时驱动，是一种基于音频驱动的二次元形象对话系统，使用音频分析驱动二次元图片直接与人对话的系统，能完成对用户情绪的实时感知，给出情绪化的回应，提升了对话的质量，能够更好的满足用户的情感需求，解决了现有的方法中存在的很多缺陷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频生成，具体涉及一种基于音频驱动二次元图片表情及动作的高效方法。

技术介绍

1、随着互联网的普及和社交媒体的兴起，情感分析的需求逐渐增加，大量的文本和语音数据包含了人们的情感信息。同时人工智能技术的发展为情感分析提供了更好的技术支持和数据处理方法，用户对于情感聊天机器人形象的需求也推动了情感分析的发展。

2、现有的方法存在很多缺陷：

3、1、对人物输入图片有较多的限制，需要正脸居中；

4、2、对于被遮挡的部分，生成图像的质量存在问题，当角色被遮挡的部分旋转并变得可见时，它们常常模糊不清；

5、3、现有的主流方法往往计算速度慢，需要更强大的gpu才能实时运行，并且无法在移动设备上有效使用；

6、4、没有音频驱动情感模型，各种面部表情需要通过手动控制；

7、5、目前仅能实现脸部器官的小角度旋转和躯干的移动。

技术实现思路

1、为了解决上述现有技术中存在的技术问题，本专利技术提供一种基于音频驱动二次元图片表情及动作的高效方法，是一个使用音频分析驱动二次元图片直接与人对话的系统，能完成对用户情绪的实时感知，给出情绪化的回应，提升了对话的质量，能够更好的满足用户的情感需求。

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种基于音频驱动二次元图片表情及动作的高效方法，包括以下步骤：

4、s1、提取音频数据，构建人脸特征序列和姿态序列；

5、s1.1、音频提取特征；

6、s1.2、音频提取特征转换到3d面部mesh，获得人脸特征序列；

7、s1.3、音频提取姿态，获得姿态序列；

8、s1.3、构建素材库，引入参考信息；

9、s2、将s1中人脸特征序列和姿态序列转换为输入，然后驱动二次元形象照片，完成二次元形象动作序列；

10、s2.1、输入图片，通过人脸识别与特征提取获得二次元的人脸特征点；

11、s2.2、输入s1中计算的人脸特征序列和姿态序列，在获得mesh和pose序列后转化为2d facial landmarks序列得到45维的姿态向量，然后将姿势向量通过二次元表情系统驱动新图像进行新姿态的图像生成；

12、s2.3、姿势转换后的图像和外观流图输出后被放大后传入编辑器提升图片质量，最终返回给用户。

13、优选的，所述步骤s1中，使用基于transformer的模型提取来自音频输入的3d面部mesh和头部pose序列，投影到2d面部landmark中。

14、优选的，所述步骤s1.1中，用预训练的wav2vec 2.0来提取音频特征h1:t＝(h1,...,ht)，并进行对应的情绪识别，获取情感特征c1:t＝(c1,...,ct)，通过编码器将音频特征和情感特征进行编码得到新的音频特征a1:t，具体计算方式如下：

15、a1:t＝∑(αh1：tβc1：t)。

16、优选的，所述步骤s1.2中，将提取的音频特征a1:t＝(a1,...,at)通过一个34层的resnet，然后接入两个fc层组成的简单架构将提取的音频特征转换为3d面部网格m1:t＝(m1,...,mt)，训练的loss为l1loss，具体计算方式如下：

17、

18、优选的，所述步骤s1.3中，将提取的音频特征a1:t＝(a1,...,at)去推理头部姿态的动作p1:t＝(p1,...,pt)，建立一个独立的34层的resnet，用transformer作为decoder，来解码pose序列，使用transformer，将可以提高生成速度；

19、其中，音频特征通过交叉注意机制集成到decoder中，改进后模型结构包含三个部分，分别为共享的encoder、ctc解码器和attention解码器，共享encoder为独立的34层的resnet，ctc解码器为一个全连接层和一个softmax层，attention解码器包含多层transformer层，损失函数公式为：

20、lcombin(x,y)＝λlctc(x,y)+(1-λ)laed(x,y)。

21、优选的，所述步骤s2.1中，输入图片为一个人形动漫角色的“半身照”并处理至512×512图像，这个人物形象通过可以图像生成技术来获得，也可以是具有版权的自行绘制图像。

22、优选的，所述步骤s2.2中，输入s1中计算的人脸特征序列和姿态序列，在获得mesh和pose序列后，用透视投影(perspective projection)将它们转换为2d faciallandmarks序列得到45维的姿态向量，这45个参数中，39个用于控制角色的表情，6个用于控制脸部和身躯的旋转；

23、其中，该系统由5个神经网络组成，可分为两模块，三个网络构成人脸转换器模块，剩下的两个网络分别构成“低分辨率旋转器”和“编辑器”。

24、优选的，所述人脸转换器模块负责改变角色的面部表情，人脸转换器模块负责通过分析2d面部标志点和参考图像的特征，将这些信息融合到生成过程中，确保生成的面部动作与输入的音频和参考图像保持一致。

25、优选的，所述低分辨率旋转器和编辑器共同构成身体旋转器模块，职责是根据姿势和外观流图，计算出非表情参数旋转头部和身躯等整体图像效果。计算出一个低分辨率的图像特征。

26、优选的，所述编辑器还负责优化生成的面部动作的细节，如唇形同步的精确度和面部表情的自然度，使得最终的动画更加逼真和富有表现力；

27、其中，面部图像特征点经过perspective projection变化后的图像为idirect，躯干部分图像经过外观流图变化后的图像为iwrapper，alpha通道的mask为ialpha，损失函数为：

28、ltotal＝∑(iwrapper-iwrapper’)+∑(idirect-idirect’)；

29、通过身体旋转器和编辑器处理后的最终图为：

30、itotal(x,y)＝λialphaidirect(x,y)+(1-λ)ialphaiwrapper(x,y)。

31、与现有技术相比，本专利技术具备以下有益效果：

32、本专利技术第一阶段专注于音频的特征提取，构建人脸特征序列和姿态序列，从音频中提取出关键的特征，并生成一个详细的姿态序列，这个姿态序列包含了每一帧动画所需的头部姿态和身体姿势信息，为后续的视频生成步骤奠定了坚实的基础，能完成对用户情绪的实时感知，给出情绪化的回应，提升了对话的质量，能够更好的满足用户的情感需求。

33、本专利技术第二阶段则是将第一阶段生成的人脸特征和姿态信息，精确地映射到任意给定的二维人物图片上的人物特征上，能够实现对二次元人物图片的精细化快速驱动，使得原本静态的图片能够根据音频输入实时展现出丰富的表情和动作，增强本文档来自技高网...

【技术保护点】

1.一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤S1中，使用基于transformer的模型提取来自音频输入的3D面部mesh和头部pose序列，投影到2D面部1andmark中。

3.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤S1.1中，用预训练的wav2vec 2.0来提取音频特征H1：T＝(h1，...，hT)，并进行对应的情绪识别，获取情感特征C1：T＝(c1，...，cT)，通过编码器将音频特征和情感特征进行编码得到新的音频特征A1：T，具体计算方式如下：

4.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤S1.2中，将提取的音频特征A1：T＝(a1，...，aT)通过一个34层的ResNet，然后接入两个fc层组成的筒单架构将提取的音频特征转换为3D面部网格M1：T＝(m1，...，mT)，训练的loss为L1loss，具体计算方式如下：

5.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤S1.3中，将提取的音频特征A1：T＝(a1，...，aT)去推理头部姿态的动作P1：T＝(p1，...，pT)，建立一个独立的34层的ResNet，用transformer作为decoder，来解码pose序列，使用transformer，将可以提高生成速度；

6.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤S2.1中，输入图片为一个人形动漫角色的“半身照”并处理至512×512图像，这个人物形象通过可以图像生成技术来获得，也可以是具有版权的自行绘制图像。

7.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤S2.2中，输入S1中计算的人脸特征序列和姿态序列，在获得mesh和pose序列后，用透视投影(perspective projection)将它们转换为2D facial landmarks序列得到45维的姿态向量，这45个参数中，39个用于控制角色的表情，6个用于控制脸部和身躯的旋转；

8.根据权利要求7所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述人脸转换器模块负责改变角色的面部表情，人脸转换器模块负责通过分析2D面部标志点和参考图像的特征，将这些信息融合到生成过程中，确保生成的面部动作与输入的音频和参考图像保持一致。

9.根据权利要求7所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述低分辨率旋转器和编辑器共同构成身体旋转器模块，职责是根据姿势和外观流图，计算出非表情参数旋转头部和身躯等整体图像效果。计算出一个低分辨率的图像特征。

10.根据权利要求9所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述编辑器还负责优化生成的面部动作的细节，如唇形同步的精确度和面部表情的自然度，使得最终的动画更加逼真和富有表现力；

...

【技术特征摘要】

1.一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤s1中，使用基于transformer的模型提取来自音频输入的3d面部mesh和头部pose序列，投影到2d面部1andmark中。

3.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤s1.1中，用预训练的wav2vec 2.0来提取音频特征h1：t＝(h1，...，ht)，并进行对应的情绪识别，获取情感特征c1：t＝(c1，...，ct)，通过编码器将音频特征和情感特征进行编码得到新的音频特征a1：t，具体计算方式如下：

4.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤s1.2中，将提取的音频特征a1：t＝(a1，...，at)通过一个34层的resnet，然后接入两个fc层组成的筒单架构将提取的音频特征转换为3d面部网格m1：t＝(m1，...，mt)，训练的loss为l1loss，具体计算方式如下：

5.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法，其特征在于：所述步骤s1.3中，将提取的音频特征a1：t＝(a1，...，at)去推理头部姿态的动作p1：t＝(p1，...，pt)，建立一个独立的34层的resnet，用transformer作为decoder，来解码pose序列，使用transformer，将可以提高生成速度；

<...

【专利技术属性】
技术研发人员：卢薇薇，古小帆，
申请(专利权)人：深圳市千集技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人