一种语音信号驱动的个性化三维人脸动画生成方法及其应用技术

技术编号：38136694 阅读：10 留言：0更新日期：2023-07-08 09:48

本发明专利技术涉及人脸动画领域，尤其涉及一种语音信号驱动的个性化三维人脸动画生成方法及其应用。一种语音信号驱动的个性化三维人脸动画生成方法，对于目标人物的正脸演讲视频重建三维人脸动作序列，并从视频的语音信号中提取语音特征序列；通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分，其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息，个性化风格特征包含三维人脸动作中反应人物个性的风格信息；同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合，生成个性化三维人脸动画。生成个性化三维人脸动画。生成个性化三维人脸动画。

全部详细技术资料下载

【技术实现步骤摘要】
Theobalt,Matthias Nieβner.语音驱动的脸部重演，Neural voice puppetry:Audio
‑
driven facial reenactment.European Conference on Computer Vision(ECCV),pages 716
‑
731,Springer,Cham,2020.)从德国新闻评论视频中收集116个目标人物的正脸演讲视频数据，用所有目标人物的数据训练一个共用的卷积神经网络将语音信号映射到共用的混合变形(Blend Shape)模型系数序列，再为每个目标人物优化一个线性映射矩阵将共用的混合变形模型系数映射到目标人物个性化的混合变形模型系数。这些技术依赖于风格控制的方法以生成某个特定目标人物的个性化人脸动画，虽然这些技术对不同人物的个性化风格加以区分，但是没有显式地区分每个人物数据内部的个性化风格信息与语音内容发音动作信息，导致其所训练的网络模型无法准确地学习人物的个性化风格。

技术实现思路

[0005]本专利技术的目的在于针对现有技术的不足，提供了一种语音信号驱动的个性化三维人脸动画生成方法。
[0006]一种语音信号驱动的个性化三维人脸动画生成方法，对于目标人物的正脸演讲视频重建三维人脸动作序列，并从视频的语音信号中提取语音特征序列；通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分，其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息，个性化风格特征包含三维人脸动作中反应人物个性的...

【技术保护点】

【技术特征摘要】
1.一种语音信号驱动的个性化三维人脸动画生成方法，其特征在于，对于目标人物的正脸演讲视频重建三维人脸动作序列，并从视频的语音信号中提取语音特征序列；通过一个解耦网络将所重建的三维人脸动作序列分解为内容特征序列和个性化风格特征两部分，其中内容特征序列包含三维人脸动作中语音内容发音所需的必要动作信息，个性化风格特征包含三维人脸动作中反应人物个性的风格信息；同时通过另一个语音动画网络将所分解的个性化风格特征与所提取的语音特征序列相结合，生成个性化三维人脸动画。2.根据权利要求1所述的语音信号驱动的个性化三维人脸动画生成方法，其特征在于：包括以下步骤：(1)处理目标人物视频数据：对所给目标人物的正脸演讲视频中的每一帧画面使用现有三维可形变人脸模型技术进行三维重建，并移除头部运动，得到目标人物的三维人脸模型模板以及三维人脸动作序列；所述模型模板是由顶点维度、空间维度组成的二维张量；所述三维人脸动作序列是相对于模型模板的顶点偏移序列，是由序列维度、顶点维度、空间维度组成的三维张量；对所给视频提取语音信号；(2)获取辅助人物数据：从现有的公开的语音同步三维人脸动画数据库中获取辅助人物数据，其中每个辅助人物的数据包括三维人脸模型模板、三维人脸动作序列、以及同步的语音信号；所述语音同步三维人脸动画数据库不包含目标人物的三维数据；(3)提取语音特征序列：对步骤(1)与步骤(2)中所得语音信号，使用现有语音识别技术提取语音特征序列；所述语音特征序列是由序列维度、窗口维度、特征图维度组成的三维张量；(4)训练深度神经网络：使用步骤(1)与(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络，分别称为解耦网络与语音动画网络；所述解耦网络将三维人脸动作序列分解为内容特征序列和个性化风格特征两部分；所述内容特征序列是由序列维度、特征图维度组成的二维张量，包含三维人脸动作中语音内容发音所需的必要动作信息；所述个性化风格特征是由特征图维度组成的一维张量，包含三维人脸动作中反应人物个性的风格信息；所述语音动画网络将所分解的个性化风格特征与语音特征序列结合，输出个性化三维人脸动作序列；(5)获取目标人物个性化风格特征：对步骤(1)中所得的目标人物三维人脸动作序列，使用步骤(4)训练所得的解耦网络分解出目标人物的个性化风格特征；(6)生成语音同步的个性化三维人脸动画：对输入的任意语音信号使用与步骤(3)中相同的方法提取语音特征序列；使用步骤(4)训练所得语音动画网络将所提取语音特征序列与步骤(5)所得目标人物的个性化风格特征结合，输出个性化三维人脸动作序列；所得三维人脸动作序列加上步骤(1)所得目标人物的三维人脸模型模板，得到个性化三维人脸动画；所述个性化三维人脸动画与输入的语音保持同步，并具有目标人物个性化的风格。3.根据权利要求2所述的语音信号驱动的个性化三维人脸动画生成方法，其特征在于，所述步骤(4)包含如下子步骤：(4.1)使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络：解耦网络；所述解耦网络由一个内容编码器、一个风格编码器、以及一个动作解码器组成；所述内容编码器对三维人脸动作序列中的每一帧首先进行三次螺旋卷积；每次螺旋卷积操作之
后进行顶点下采样，并使用负数倾斜率为0.2的带泄漏线性整流函数激活；随后将三次螺旋卷积之后的所有顶点特征连接成一维向量，再通过一个线性矩阵将其映射到内容特征；三维人脸动作序列中所有帧经过映射之后得到内容特征序列；所述内容特征序列是由序列维度、特征图维度组成的二维张量；所述风格编码器对三维人脸动作序列中的每一帧进行与前述内容编码器相同的三次螺旋卷积、顶点下采样、激活与后续线性映射操作，但使用不同的参数将每一帧映射到中间风格特征；三维人脸动作序列中所有帧映射到中间风格特征序列之后，用一个标准的长短时记忆单元循环地处理中间风格特征序列并得到个性化风格特征；所述个性化风格特征是由特征图维度组成的一维向量。所述动作解码器对内容编码器所得内容特征序列进行三次一维卷积，每次卷积之前，将风格编码器所得个性化风格特征与输入的每帧特征相连接，并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变；每次卷积之后，使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；再通过五层全连接层映射，输出个性化三维人脸动作序列。所述训练过程使用标准Adam优化器优化网络中的可训练参数，以最小化解耦目标函数；所述解耦目标函数包括：重构项，风格交换项，以及循环一致项；所述重构项利用内容编码器和风格编码器将步骤(1)与步骤(2)中所得三维人脸动作序列编码为内容特征序列和个性化风格特征，并使用原始数据监督动作解码器从内容特征序列和个性化风格特征解码输出的个性化三维人脸动作序列；所述风格交换项利用内容编码器和风格编码器将步骤(1)与步骤(2)中所得三维人脸动作序列编码为内容特征序列和个性化风格特征，然后交换任意两个序列数据的个性化风格特征，使之与来源不同的内容特征序列结合并经过动作解码器输出个性化风格特征交换之后的个性化三维人脸动作序列，风格交换项对该输出进行监督；所述循环一致项对前述个性化风格特征交换之后的个性化三维人脸动作序列再次利用内容编码器和风格编码器编码并再次交换编码后的个性化风格特征，经过动作解码器输出两次个性化风格特征交换之后的个性化三维人脸动作序列，循环一致项对该输出进行监督。(4.2)使用步骤(3)所得语音特征序列与步骤(4.1)中解耦网络所分解的个性化风格特征，训练另一个深度神经网络：语音动画网络，该步骤与步骤(4.1)同时进行。所述语音动画网络由一个语音编码器以及一个动作解码器组成。所述语音编码器对语音特征序列中的每一帧特征窗口，将整个窗口作为源，窗口中间帧作为询问，使用标准的变形器网络进行编码；对序列中所有帧进行编码得到编码后的语音特征序列；所述编码后的语音特征序列是由序列维度、特征图维度组成的二维张量。所述动作解码器对编码后的语音特征序列进行三次一维卷积，每次卷积之前，将步骤(4.1)所分解的个性化风格特征与输入的每帧特征相连接，并且在序列前端以零特征向量填补以保证卷积之后的序列长度不变；每次卷积之后，使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；再通过五层全连接层映射，输出个性化三维人脸动作序列。该动作解码器与步骤(4.1)中的解耦网络中的动作解码器除输入之外完全相同，即步骤(4.1)中的解耦网络与该步骤中的语音动画网络共用同一个动作解码器。所述训练过程使用标准Adam优化器优化网络中的可训练参数，以最小化语音动画目标函数；所述语音动画目标函数包括：语音动画重构项，语音动画风格交换项，以及语音动画循环一致项；所述语音动画重构项计算方法与步骤(4.1)中的重构项相似，仅将解耦网络的输出替换为对应的语音动画网络输出；所述语音动画风格交换项计算方法与步骤(4.1)中的风格交换项相似，仅将解耦网络的输出替换为对应的语音动画网络输出；所述语音动
画循环一致项计算方法与步骤(4.1)中的循环一致项相似，仅将解耦网络的输出替换为对应的语音动画网络输出。4.根据权利要求2所述的语音信号驱动的个性化三维人脸动画生成方法，其特征在于：具体步骤如下：(1)处理目标人物视频数据：对目标人物的正脸演讲视频中的每一帧图像使用现有的三维可形变人脸模型技术，进行三维重建，并移除所有头部运动，得到目标人物的三维人脸模型模板I0以及三维人脸动作序列0为目标人物编号，n表示序列中的帧序号集合{1，2，...，|n|}，表示序列中的第t帧人脸动作，即相较于模型模板的顶点偏移；其中，I0和是形状为V
×
3的张量，是形状为|n|
×
V
×
3的张量，|n|表示序列长度，V表示三维人脸模型顶点数量，3表示三维空间；同时，从目标人物的视频中分离出语音的音频信号X0；(2)获取辅助人物数据：从现有的公开的语音同步三维人脸动画数据库，获取辅助人物数据；数据库中的每个辅助人物的数据包括三维人脸模型模板I
u
、三维人脸动作序列以及同步的语音信号X
u
；其中，u为该数据对应人物的编号，m表示序列中的帧序号集合{1，2，...，|m|}，表示序列中的第t帧人脸动作，I
u
和是形状为V
×
3的张量，是形状为|m|
×
V
×
3的张量，|m|表示序列长度，V表示三维人脸模型顶点数量，3表示三维空间；所述语音同步三维人脸动画数据库不包含目标人物的三维数据，即满足u＞0，并且其数据的三维人脸模型的拓扑结构与步骤(1)中所使用的三维人脸模型的拓扑结构一致；(3)提取语音特征序列：对步骤(1)与步骤(2)中所得语音信号X
i
使用现有语音识别技术，提取中间特征x
i
，其是形状为|i|
×
C
x
的张量，再对其进行分窗操作得到语音特征序列W
i
＝{w
t
}
t∈i
，其是形状为|i|
×
W
×
C
x
的张量；其中，i≥0为包括目标人物和辅助人物的人物编号，i表示序列中的帧序号集合{1，2，...，|i|}，w
t
表示第t帧语音特征，|i|表示序列长度，与对应的三维人脸动作序列长度一致，W表示每一帧特征的窗口长度，C
x
表示特征图数量；所述分窗操作对x
i
序列上的每一帧取其前后各帧作为一个窗口，超出序列范围的部分取零填补；(4)训练深度神经网络：使用步骤(1)与步骤(2)所得三维人脸动作序列和步骤(3)所得语音特征序列同时训练两个深度神经网络，分别称为解耦网络与语音动画网络；包含以下子步骤：(4.1)训练解耦网络：使用步骤(1)与步骤(2)中所得三维人脸动作序列训练一个深度神经网络，称为解耦网络；其中，k≥0表示包括目标人物和辅助人物的人物编号，i表示序列中的帧序号集合{1，2，...，|i|}，为序列中第t帧三维人脸动作；所述解耦网络由一个内容编码器E
C
、一个风格编码器E
S
、以及一个动作解码器D组成，其运算过程定义如下：其中，C
i
为编码所得内容特征序列，s
k
为编码所得个性化风格特征，为结合s
k
和
C
i
并解码之后生成的个性化三维人脸动作序列；所述内容编码器E
C
对三维人脸动作序列中的第t帧首先进行三次螺旋卷积；每次螺旋卷积操作之后进行顶点下采样，并使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；随后，将卷积所得的所有顶点特征连接成一维向量，再通过一个可训练的线性矩阵将其映射到第t帧内容特征c
t
；三维人脸动作序列中所有帧映射之后得到内容特征序列C
i
＝{c
t
}
t∈i
；所述内容特征序列C
i
是形状为|i|
×
C
c
的张量，|i|表示序列长度，C
c
表示特征图数量；所述螺旋卷积定义在输入的顶点维度上，其形式如下：其中，v
j
表示输入螺旋卷积的第j个顶点的特征，是形状为C的向量，C表示特征数量；表示对第i个顶点预定义的L个邻接顶点的集合，表示将输入的第i个顶点的邻接顶点集合中所有顶点的特征连接成形状为LC的一维向量，γ为可训练的线性映射，表示螺旋卷积输出的第i个顶点的特征；所述预定义的邻接顶点集合是在三维人脸模型模板上预计算所得，对模型模板上的第i个顶点取其自身与拓扑结构周围环上的共L个顶点；所述顶点下采样定义在顶点维度上，其形式如下：V
*
＝M
d
V
+
(3)其中，为螺旋卷积输出的所有顶点，下标中N为螺旋卷积输出的顶点数量；M
d
是下采样矩阵，在三维人脸模型模板上预计算所得；V
*
是下采样之后的结果，其顶点数量为V
+
的所述风格编码器E
S
对三维人脸动作序列中的第t帧首先进行三次螺旋卷积；每次螺旋卷积操作之后进行顶点下采样，并使用负数倾斜率为0.2的带泄漏线性整流函数进行激活；随后，将卷积所得的所有顶点特征连接成一维向量，再通过一个可训练的线性矩阵将其映射到第t帧中间风格特征三维人脸动作序列中所有帧映射为中间风格特征之后，再使用一个长短时记忆单元循环地处理中间风格特征序列得到个性化风格特征s...

【专利技术属性】
技术研发人员：周昆，柴宇进，翁彦琳，邵天甲，
申请(专利权)人：杭州相芯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人