一种无约束唇语到语音合成方法、系统和存储介质技术方案

技术编号:34736517 阅读:12 留言:0更新日期:2022-08-31 18:27
本发明专利技术公开了一种无约束唇语到语音合成方法、系统和存储介质,属于语音合成领域。通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;将视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;通过声学编码器将对齐后的视觉特征向量转换成对应的声学特征向量;根据声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将声学特征向量合成音频波形,转化为预测音频。本发明专利技术可以直接在无约束的视频上以更快地的推理速度合成更高质量的语音。速度合成更高质量的语音。速度合成更高质量的语音。

【技术实现步骤摘要】
一种无约束唇语到语音合成方法、系统和存储介质


[0001]本专利技术涉及语音领域,具体涉及一种无约束唇语到语音合成方法、系统和存储介质。

技术介绍

[0002]无约束的唇语到语音合成任务旨在从有说话人的不受头部姿势或词汇限制的无声视频中合成相应的语音音频。目前的方法无论是在自回归架构或基于流的非自回归架构主要使用序列到序列模型来解决这个问题。然而,这些模型有以下缺点:
[0003](1)这些模型不是直接生成音频,而是通过2个步骤生成音频,即首先生成梅尔频谱,然后从梅尔频谱合成音频。这会带来复杂的模型部署步骤以及由于错误传播导致的语音质量下降等问题;
[0004](2)这些模型使用的音频重建算法限制了推理速度和音频质量,而neural vocoder(神经声码器)则不可以用于这些模型,因为它们在无约束输入上的输出频谱图不够准确;
[0005](3)基于自回归架构的模型具有高推理延迟,而基于流架构的模型具有高内存占用,它们在时间和内存的使用上都不够高效。

技术实现思路

[0006]针对上述问题,本专利技术提供一种无约束唇语到语音合成方法、系统和存储介质,该方法可以直接在无约束的视频上以更快地的推理速度合成更高质量的语音。
[0007]为此,本专利技术采用的技术方案如下:
[0008]第一个方面,本专利技术提供了一种无约束唇语到语音合成方法,包括如下步骤:
[0009]S1:通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;
[0010]S2:将步骤S1得到的视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;
[0011]S3:通过声学编码器将步骤S2得到的对齐后的视觉特征向量转换成对应的声学特征向量;
[0012]S4:根据步骤S3得到的声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;
[0013]S5:固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将步骤S3得到的声学特征向量合成音频波形,转化为预测音频。
[0014]第二个方面,本专利技术提供了一种无约束唇语到语音合成系统,用于实现上述的无约束唇语到语音合成方法。
[0015]第三个方面,本专利技术提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的无约束唇语到语音合成方法。
[0016]与现有技术相比,本专利技术的优势在于:
[0017]本专利技术提出了一种无约束唇语合成的端到端模型,该模型采用非自回归端到端架构有效减少了计算延迟,并建立了一种通过使用基于GAN的声码器进行对抗训练的方法提高了音频质量,结果表明,本专利技术提出的模型合成的语音质量更高,并且梅尔频谱推理速度、音频推理速度在3秒视频时长的数据集上分别比目前最先进的模型快9.14倍和19.76倍,实现了在无约束的条件下以更低的推理延迟和更小的模型大小直接合成更高质量的语音的目标。
附图说明
[0018]图1根据一示例性实施例提出的一种无约束唇语到语音合成方法整体架构示意图;
[0019]图2为根据一示例性实施例提出的梅尔频谱推理速度对比图;
[0020]图3为根据一示例性实施例提出的音频推理速度对比图;
[0021]图4为根据一示例性实施例示出的具备数据处理能力的设备终端示意图。
具体实施方式
[0022]下面结合附图和实施例对本专利技术进行进一步说明。附图仅为本专利技术的示意性图解,附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
[0023]本专利技术首次提出了一种在唇语到语音合成任务中用于对唇部动作进行编码的基于transformer的视觉编码器,在大型无约束数据集和小型数据集上都有很高的性能表现;提出了一种非自回归端到端架构的声学编码器和基于对抗生成网络的音频生成器,用于在无约束的条件下以更低的推理延迟和更小的模型大小直接合成更高质量的语音。
[0024]无约束唇语合成的问题可以表示为:假设有一个说话的人的唇语视频序列V={v1,v2,......,v
n
},其中,n表示视频序列的长度,v
i
代表视频序列中第i帧,v
i
和v
i
可能存在有很大的不同,即说话人的头部位置不受约束。该唇语合成的任务是生成相应的语音音频A={a1,a2,......,aL},其中,L表示语音的长度,a
j
表示语音中的第j个词,不受有限词汇表的限制。
[0025]T
·
sr=L
·
FPS
[0026]其中,sr是音频的采样率,FPS是视频的帧率。
[0027]如图1所示,将本专利技术使用的模型记为FastLTS,其主要由三部分组成:视觉编码器、声学编码器模块和音频生成器。视觉编码器用于从输入的唇语视频序列中提取和编码视觉特征,声学编码器用于将视觉特征转化为对应的声学特征,音频生成器用于根据声学特征合成音频波形。FastLTS模型在训练阶段,还会在声学编码器的输出层之后引入辅助梅尔频谱层,用于对视觉编码器、声学编码器模块进行预训练。
[0028]结合图1所示,在本专利技术的一项具体实施中,无约束唇语到语音合成方法主要包括以下步骤:
[0029]S1:通过视觉编码模块从输入视频序列中提取并编码得到视觉特征向量;所述的视觉编码器包含一个视觉标记层、一个空间transformer、一个时序transformer。
[0030]本步骤中,视觉标记层用于初步提取输入视频序列的局部特征并生成时空标记,得到视觉标记序列T,为视觉标记序列T添加位置嵌入后作为空间transformer的输入;空间transformer用于对相邻视觉标记之间的相关性进行建模,利用线性近似多头注意力层减少注意力的计算负担,对于空间transformer的前馈部分,采用局部增强前馈网络,增加局部特征建模能力,得到空间编码后的视觉标记序列T

,层线性映射到低维后进行位置编码,得到初始视觉特征向量F

;时序transformer用于对视觉特征向量F

进行时序编码,得到最终视觉特征向量F。
[0031]具体的,步骤S1的实现过程为:
[0032]S1

1:输入视频序列V={v1,v2,......,v
n
},其中v
i
代表视频序列中第i帧,n代表视频序列长度;所述的视觉标记层包含一个3维卷积层、一个层标准化层和一个最大池化层,用于初步提取视频序列的局部特征并生成包含时空信息的视觉标记,并对视觉标记进行位置编码,得到视觉标记序列T={t1,t2,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无约束唇语到语音合成方法,其特征在于,包括如下步骤:S1:通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;S2:将步骤S1得到的视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;S3:通过声学编码器将步骤S2得到的对齐后的视觉特征向量转换成对应的声学特征向量;S4:根据步骤S3得到的声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;S5:固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将步骤S3得到的声学特征向量合成音频波形,转化为预测音频。2.根据权利要求1所述的一种无约束唇语到语音合成方法,其特征在于,所述的视觉编码器包括视觉标记层、空间transformer和时序transformer;所述的步骤S1包括:S1

1:获取唇语视频序列V={v1,v2,
……
,v
n
},其中v
i
代表视频序列中第i帧,n代表视频序列长度;利用视觉标记层提取唇语视频序列V的局部特征,并生成包含时空信息的视觉标记;并对视觉标记进行位置编码,得到视觉标记序列T={t1,t2,
……
,t
n
},其中t
i
代表视频序列中第i帧的视觉标记;S1

2:通过空间transformer对步骤S1

1得到的视觉标记序列T进行相邻视觉标记之间的空间相关性编码,得到空间编码后的视觉标记序列T

;S1

3:将步骤S1

2得到的空间编码后的视觉标记序列T

中具有相同时序索引的多个隐藏层线性映射成一个低维的单个隐藏层,并进行位置编码,得到视觉特征向量F

;S1

4:通过时序transformer对步骤S1

3得到的视觉特征向量F

进行时序相关性编码,将时序编码后的视觉特征向量作为最终视觉特征向量F。3.根据权利要求1所述的一种无约束唇语到语音合成方法,其特征在于,所述的步骤S2包括:S2

1:根据音频每秒特征序列长度L
aud
和视频每秒帧数FPS,计算调整因子d,计算公式如下:S2

2:如果调整因子d是整数,则复制步骤S1得到的最终视觉特征向量F中每个视频帧的视觉特征d次,即调整因子序列为δ={d,d,

,d};如果调整因子d不是整数,则取L
aud
、FPS最大公约数为K,将最终视觉特征向量分割为K组,每组个,每组视觉特征向量的调整因子序列都为d
i
...

【专利技术属性】
技术研发人员:赵洲王泳淇佘清顺陈哲乾
申请(专利权)人:杭州一知智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1