一种基于并行流模型的快速唇动-语音对齐方法技术

技术编号:31616276 阅读:18 留言:0更新日期:2021-12-29 18:49
本发明专利技术公开了一种基于并行流模型的快速唇动

【技术实现步骤摘要】
一种基于并行流模型的快速唇动

语音对齐方法


[0001]本专利技术涉及语音合成领域,尤其是一种基于并行流模型的快速唇动

语音对齐方法。

技术介绍

[0002]借助视觉线索生成可理解语音是语音合成领域的一个重要主题,但仅从唇部动作推断语音是一项众所周知的艰巨任务,由于视位(语音的视觉单位)和音位(语音的语音单位)之间的一对多映射,同音词广泛存在并成为唇读和唇语语音准确信息提取的关键障碍。
[0003]随着深度学习的发展,在视频理解、视听学习和基于视频的声音生成方面取得了很大进展,而特定视位组合中的视位更有可能对应于独特的音素,模型可以利用更大的上下文来更准确地推断特定音素,并进一步减少歧义。

技术实现思路

[0004]本专利技术所要解决的技术问题是克服上述现有技术仅从唇部动作推断语音无法实现唇动

语音对齐,本专利技术提供一种基于并行流模型的快速唇动

语音对齐方法,以突破现有技术只能生成语音在有限的词汇和固定的句子结构的约束条件的限制,可生成比当前最先进的口型到语音模型更自然的语音。
[0005]为此,本专利技术采用的技术方案如下:一种基于并行流模型的快速唇动

语音对齐方法,其包括如下步骤:
[0006]1)提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量;
[0007]2)将视觉特征向量的长度校准至对应音频内容的长度,引入步骤1)得到的包含明确语义信息的视觉特征向量,设计校准模块,得到与音频特征向量长度统一的校准视觉特征向量;
[0008]3)根据步骤2)得到的与音频特征向量长度统一的校准视觉特征向量,通过状态模块得到最终编码向量,其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层;
[0009]4)根据步骤3)得到的最终编码向量,通过流解码器解码生成语音音频,其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层;
[0010]5)在模型训练阶段,通过视觉编码器与状态模块、流解码器分部式训练的方法,完成模型训练。
[0011]为了实现语音的并行生成,充分利用视频和音频的时间同步,本专利技术提出了一种简单的视频和音频对齐方法。通过实验,发现受流模型容量的限制,直接使用视觉编码器的输出作为基于流的解码器的条件,往往会导致语音清晰度下降。因此本专利技术进一步提出了一个状态模块生成粗糙但可理解的语音,并使用粗糙语音作为解码器的条件生成相应的高质量语音。本专利技术可以处理大量词汇和复杂句子,速度比当前最先进的模型快20倍左右。
[0012]进一步地,所述步骤1)的具体内容为:
[0013]1.1)输入面部视频序列V={v1,v2,...v
i

,v
M
},其中v
i
代表面部视频序列的第i
th
视频帧,批标准化后通过激活函数为relu函数的3D卷积神经网络,下采样视频帧得到一个D维向量f
i
,视频特征向量序列为F={f1,f2,...f
i

,f
M
},其中其中为视频语义向量空间;
[0014]1.2)将步骤1.1)得到的视频特征向量序列一个双向LSTM网络,处理上下文信息,得到包含明确语义信息的视觉特征向量
[0015]更进一步地,所述步骤2)的具体内容为:
[0016]2.1)将步骤1.2)得到的包含明确语义信息的视觉特征向量长度为M的视频特征向量通过校准模块,得到与音频特征向量长度统一的长度为N的校准视觉特征向量F


[0017]再进一步地,所述步骤2.1)中的校准视觉特征向量,具体内容为:
[0018]2.1.1)输入长度M的视频帧和长度为N的梅尔声谱,M<N,如果N可被M整除,校准结果为{N/M,N/M,...},如果N不可被M整除,取M与N的最大公约数K,将视频帧和音频帧分割为K组,每组的校准结果为:
[0019][0020][0021]其中,al
i
代表每组中梅尔声谱的帧数对应的第i
th
视频帧。
[0022]更进一步地,所述的步骤3)中通过状态模块得到最终编码向量,具体内容为:
[0023]3.1)根据步骤2.1)所得的校准视觉特征向量F

加入位置向量后传入一个堆叠的前馈转换器得到中间向量F
′1,其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成;
[0024]3.2)根据步骤3.1)所得的中间向量F
′1,传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F
′2;
[0025]3.3)使用均方差损失函数训练状态模块,均方差函数的表达式为训练状态模块,均方差函数的表达式为其中cond为条件模块的输出,mel为梅尔声谱的真实值。
[0026]再进一步地,所述步骤4)中的流解码器,具体内容为:
[0027]4.1)根据步骤3.2)所得的最终编码F
′2传入流解码器解码生成语音音频,流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成;
[0028]为方便对所述步骤4.1)进行简要说明,提出如下两种定义:(1)每个模块的输入和输出均由x和y表示,尺寸为t
×
c,其中t为时间维度、c为通道维度;(2)sum()代表对矩阵元素所有元素进行加和。
[0029]更进一步地,所述步骤4.1)的具体内容为:
[0030]4.1.1)将步骤3.2)所得的最终编码F
′2作为输入传入压缩层,将80路的梅尔声谱
帧分为按时间维度等分的两部分和将它们组成160路的特征图W
j

[0031]4.1.2)将步骤4.1.1)压缩层的输出作为标准执行层的输入传入逆卷积层,标准执行层对每路的规模s和偏差参数b进行仿射转化,在模型训练中,标准执行层进行的运算为y=s
·
x+b,在预测过程中,对应的逆变换为x=(y

b)/s,其中标准执行层的雅克比对数行列式由sum(log(|s|))
×
t计算而得,其中规模s和偏差参数b在第一批数据的初始化时应实现零均值和单位方差,在初始化后s与b可看作常规可训练参数;
[0032]4.1.3)将4.1.2)标准执行层的输出作为逆卷积层的输入,将输入的分为40组,并将训练过程的变换定义为:y
i
=Wx
i
,,其中W是一个的矩阵,x
i
,y
i
为第i
th
组的输入与输出x,y,逆变换为x
i
=W
‑1y
i
,逆变本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于并行流模型的快速唇动

语音对齐方法,其特征在于,包括如下步骤:1)提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量;2)将视觉特征向量的长度校准至对应音频内容的长度,引入步骤1)得到的包含明确语义信息的视觉特征向量,设计校准模块,得到与音频特征向量长度统一的校准视觉特征向量;3)根据步骤2)得到的与音频特征向量长度统一的校准视觉特征向量,通过状态模块得到最终编码向量,其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层;4)根据步骤3)得到的最终编码向量,通过流解码器解码生成语音音频,其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层;5)在模型训练阶段,通过视觉编码器与状态模块、流解码器分部式训练的方法,完成模型训练。2.根据权利要求1所述的基于并行流模型的快速唇动

语音对齐方法,其特征在于,所述步骤1)的具体内容为:1.1)输入面部视频序列V={v1,v2,...v
i
...,v
M
},其中v
i
代表面部视频序列的第i
th
视频帧,批标准化后通过激活函数为relu函数的3D卷积神经网络,下采样视频帧得到一个D维向量f
i
,视频特征向量序列为F={f1,f2,...f
i
...,f
M
},其中其中为视频语义向量空间;1.2)将步骤1.1)得到的视频特征向量序列一个双向LSTM网络,处理上下文信息,得到包含明确语义信息的视觉特征向量3.根据权利要求2所述的基于并行流模型的快速唇动

语音对齐方法,其特征在于,所述步骤2)的具体内容为:2.1)将步骤1.2)得到的包含明确语义信息的视觉特征向量长度为M的视频特征向量通过校准模块,得到与音频特征向量长度统一的长度为N的校准视觉特征向量F

。4.根据权利要求3所述的基于并行流模型的快速唇动

语音对齐方法,其特征在于,所述步骤2.1)中的校准视觉特征向量,具体内容为:2.1.1)输入长度M的视频帧和长度为N的梅尔声谱,M<N,如果N可被M整除,校准结果为{N/M,N/M,...},如果N不可被M整除,取M与N的最大公约数K,将视频帧和音频帧分割为K组,每组的校准结果为:每组的校准结果为:其中,al
i
代表每组中梅尔声谱的帧数对应的第i
th
视频帧。5.根据权利要求3所述的基于并行流模型的快速唇动

语音对齐方法,其特征在于,所述的步骤3)中通过状态模块得到最终编码向量,具体内容为:3.1)根据步骤2.1)所得的校准视觉特征向量F

加入位置向量后传入一个堆叠的前馈
转换器得到中间向量F
′1,其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成;3.2)根据步骤3.1)所得的中间向量F
′1,传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F
′2;3.3)使用均方差损失函数训练状态模块,均方差函数的表达式为训练状态模块,均方差函数的表达式为其中cond为条件模块的输出,mel为梅尔声谱的真实值。6.根据权利要求5所述的基于并行流模型的快速唇动

语音对齐方法,其特征在于,所述步骤4)中的流解码器,具体内容为:4.1)根据步骤3.2)所得的最终编码F
′2传入流解码器解码生成语音音频,流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成;为方便对所述步骤4.1)进行简要说明,提出如下两种定义:(1)每个模块的输入和输出均由x和y表示,尺寸为t
×
c,其中t为时间维度、c为通道维度;(2)sum()代表对矩阵元素所有元素进行加和。7.根据权利要求6所述的基于并行流模型的快速唇动

【专利技术属性】
技术研发人员:胡若云沈然张宏达丁麒郑斌马亮沈皓谷泓杰
申请(专利权)人:国网浙江省电力有限公司营销服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1