【技术实现步骤摘要】
一种无约束唇语到语音合成方法、系统和存储介质
[0001]本专利技术涉及语音领域,具体涉及一种无约束唇语到语音合成方法、系统和存储介质。
技术介绍
[0002]无约束的唇语到语音合成任务旨在从有说话人的不受头部姿势或词汇限制的无声视频中合成相应的语音音频。目前的方法无论是在自回归架构或基于流的非自回归架构主要使用序列到序列模型来解决这个问题。然而,这些模型有以下缺点:
[0003](1)这些模型不是直接生成音频,而是通过2个步骤生成音频,即首先生成梅尔频谱,然后从梅尔频谱合成音频。这会带来复杂的模型部署步骤以及由于错误传播导致的语音质量下降等问题;
[0004](2)这些模型使用的音频重建算法限制了推理速度和音频质量,而neural vocoder(神经声码器)则不可以用于这些模型,因为它们在无约束输入上的输出频谱图不够准确;
[0005](3)基于自回归架构的模型具有高推理延迟,而基于流架构的模型具有高内存占用,它们在时间和内存的使用上都不够高效。
技术实现思路
[0006]针对上述问题,本专利技术提供一种无约束唇语到语音合成方法、系统和存储介质,该方法可以直接在无约束的视频上以更快地的推理速度合成更高质量的语音。
[0007]为此,本专利技术采用的技术方案如下:
[0008]第一个方面,本专利技术提供了一种无约束唇语到语音合成方法,包括如下步骤:
[0009]S1:通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;
[0010]S2: ...
【技术保护点】
【技术特征摘要】
1.一种无约束唇语到语音合成方法,其特征在于,包括如下步骤:S1:通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;S2:将步骤S1得到的视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;S3:通过声学编码器将步骤S2得到的对齐后的视觉特征向量转换成对应的声学特征向量;S4:根据步骤S3得到的声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;S5:固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将步骤S3得到的声学特征向量合成音频波形,转化为预测音频。2.根据权利要求1所述的一种无约束唇语到语音合成方法,其特征在于,所述的视觉编码器包括视觉标记层、空间transformer和时序transformer;所述的步骤S1包括:S1
‑
1:获取唇语视频序列V={v1,v2,
……
,v
n
},其中v
i
代表视频序列中第i帧,n代表视频序列长度;利用视觉标记层提取唇语视频序列V的局部特征,并生成包含时空信息的视觉标记;并对视觉标记进行位置编码,得到视觉标记序列T={t1,t2,
……
,t
n
},其中t
i
代表视频序列中第i帧的视觉标记;S1
‑
2:通过空间transformer对步骤S1
‑
1得到的视觉标记序列T进行相邻视觉标记之间的空间相关性编码,得到空间编码后的视觉标记序列T
′
;S1
‑
3:将步骤S1
‑
2得到的空间编码后的视觉标记序列T
′
中具有相同时序索引的多个隐藏层线性映射成一个低维的单个隐藏层,并进行位置编码,得到视觉特征向量F
′
;S1
‑
4:通过时序transformer对步骤S1
‑
3得到的视觉特征向量F
′
进行时序相关性编码,将时序编码后的视觉特征向量作为最终视觉特征向量F。3.根据权利要求1所述的一种无约束唇语到语音合成方法,其特征在于,所述的步骤S2包括:S2
‑
1:根据音频每秒特征序列长度L
aud
和视频每秒帧数FPS,计算调整因子d,计算公式如下:S2
‑
2:如果调整因子d是整数,则复制步骤S1得到的最终视觉特征向量F中每个视频帧的视觉特征d次,即调整因子序列为δ={d,d,
…
,d};如果调整因子d不是整数,则取L
aud
、FPS最大公约数为K,将最终视觉特征向量分割为K组,每组个,每组视觉特征向量的调整因子序列都为d
i
...
【专利技术属性】
技术研发人员:赵洲,王泳淇,佘清顺,陈哲乾,
申请(专利权)人:杭州一知智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。