【技术实现步骤摘要】
一种基于并行流模型的快速唇动
‑
语音对齐方法
[0001]本专利技术涉及语音合成领域,尤其是一种基于并行流模型的快速唇动
‑
语音对齐方法。
技术介绍
[0002]借助视觉线索生成可理解语音是语音合成领域的一个重要主题,但仅从唇部动作推断语音是一项众所周知的艰巨任务,由于视位(语音的视觉单位)和音位(语音的语音单位)之间的一对多映射,同音词广泛存在并成为唇读和唇语语音准确信息提取的关键障碍。
[0003]随着深度学习的发展,在视频理解、视听学习和基于视频的声音生成方面取得了很大进展,而特定视位组合中的视位更有可能对应于独特的音素,模型可以利用更大的上下文来更准确地推断特定音素,并进一步减少歧义。
技术实现思路
[0004]本专利技术所要解决的技术问题是克服上述现有技术仅从唇部动作推断语音无法实现唇动
‑
语音对齐,本专利技术提供一种基于并行流模型的快速唇动
‑
语音对齐方法,以突破现有技术只能生成语音在有限的词汇和固定的句子结构的约束条件的限制,可生成比当前最先进的口型到语音模型更自然的语音。
[0005]为此,本专利技术采用的技术方案如下:一种基于并行流模型的快速唇动
‑
语音对齐方法,其包括如下步骤:
[0006]1)提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量;
[0007]2)将视觉特征向量的长度校准至对应音频内容的长度,引入步骤1)得到的包含明确语义信息 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于并行流模型的快速唇动
‑
语音对齐方法,其特征在于,包括如下步骤:1)提取视频的语义特征,通过视觉编码器,提取包含明确语义信息的视觉特征向量;2)将视觉特征向量的长度校准至对应音频内容的长度,引入步骤1)得到的包含明确语义信息的视觉特征向量,设计校准模块,得到与音频特征向量长度统一的校准视觉特征向量;3)根据步骤2)得到的与音频特征向量长度统一的校准视觉特征向量,通过状态模块得到最终编码向量,其中状态模块包含一个堆叠的前馈转换器、一个标准化层和一个多头注意力层;4)根据步骤3)得到的最终编码向量,通过流解码器解码生成语音音频,其中流解码器包含一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层;5)在模型训练阶段,通过视觉编码器与状态模块、流解码器分部式训练的方法,完成模型训练。2.根据权利要求1所述的基于并行流模型的快速唇动
‑
语音对齐方法,其特征在于,所述步骤1)的具体内容为:1.1)输入面部视频序列V={v1,v2,...v
i
...,v
M
},其中v
i
代表面部视频序列的第i
th
视频帧,批标准化后通过激活函数为relu函数的3D卷积神经网络,下采样视频帧得到一个D维向量f
i
,视频特征向量序列为F={f1,f2,...f
i
...,f
M
},其中其中为视频语义向量空间;1.2)将步骤1.1)得到的视频特征向量序列一个双向LSTM网络,处理上下文信息,得到包含明确语义信息的视觉特征向量3.根据权利要求2所述的基于并行流模型的快速唇动
‑
语音对齐方法,其特征在于,所述步骤2)的具体内容为:2.1)将步骤1.2)得到的包含明确语义信息的视觉特征向量长度为M的视频特征向量通过校准模块,得到与音频特征向量长度统一的长度为N的校准视觉特征向量F
′
。4.根据权利要求3所述的基于并行流模型的快速唇动
‑
语音对齐方法,其特征在于,所述步骤2.1)中的校准视觉特征向量,具体内容为:2.1.1)输入长度M的视频帧和长度为N的梅尔声谱,M<N,如果N可被M整除,校准结果为{N/M,N/M,...},如果N不可被M整除,取M与N的最大公约数K,将视频帧和音频帧分割为K组,每组的校准结果为:每组的校准结果为:其中,al
i
代表每组中梅尔声谱的帧数对应的第i
th
视频帧。5.根据权利要求3所述的基于并行流模型的快速唇动
‑
语音对齐方法,其特征在于,所述的步骤3)中通过状态模块得到最终编码向量,具体内容为:3.1)根据步骤2.1)所得的校准视觉特征向量F
′
加入位置向量后传入一个堆叠的前馈
转换器得到中间向量F
′1,其中堆叠的前馈转换器依次由一个多头注意力层、一个标准化层、一个卷积层和一个标准化层连接组成;3.2)根据步骤3.1)所得的中间向量F
′1,传入一个全连接层将前馈转换器的输出线性映射至与梅尔声谱相同的通道数量的最终编码F
′2;3.3)使用均方差损失函数训练状态模块,均方差函数的表达式为训练状态模块,均方差函数的表达式为其中cond为条件模块的输出,mel为梅尔声谱的真实值。6.根据权利要求5所述的基于并行流模型的快速唇动
‑
语音对齐方法,其特征在于,所述步骤4)中的流解码器,具体内容为:4.1)根据步骤3.2)所得的最终编码F
′2传入流解码器解码生成语音音频,流解码器由一个压缩/解压层、一个标准执行层、一个逆卷积层和一个仿射层组成;为方便对所述步骤4.1)进行简要说明,提出如下两种定义:(1)每个模块的输入和输出均由x和y表示,尺寸为t
×
c,其中t为时间维度、c为通道维度;(2)sum()代表对矩阵元素所有元素进行加和。7.根据权利要求6所述的基于并行流模型的快速唇动
技术研发人员:胡若云,沈然,张宏达,丁麒,郑斌,马亮,沈皓,谷泓杰,
申请(专利权)人:国网浙江省电力有限公司营销服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。