基于人脸网格的语音合成系统技术方案

技术编号:38997993 阅读:14 留言:0更新日期:2023-10-07 10:29
本发明专利技术属于计算机视觉技术领域,尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤:S1.搭建唇动模型,通过编码器从视频数据中提取唇动级特征;S2.视频语音识别,选择视频作为模型的输,并通过唇动视频预测说话者所讲述的内容,形成文本;S3.文本到语音生成,通过自回归的方式合成文本所对应的梅尔频谱,再通过音频解码器合成音频波形。与现有的技术相比,本基于人脸网格的语音合成系统的优点在于:能够提高正确度,直接通过高级特征(唇部动作)进行唇读。作)进行唇读。

【技术实现步骤摘要】
基于人脸网格的语音合成系统


[0001]本专利技术属于计算机视觉
,尤其涉及一种带基于人脸网格的语音合成系统。

技术介绍

[0002]人类说话时的唇部动作与发音的关系已经在之前的诸多研究中被证实。经过训练的专业人士可以够通过观察他人的唇形对其所说的内容加以理解,即读唇术,这一手段也被用于辅助听力障碍人士与他人进行交流。但是,这依赖人工完成效率太低,虽然现有也具有人工智能能够进行翻译,但是正确率任然不够理想。基于此,需要一种能够替代人工进行读唇,并能够提高正确率的设施。

技术实现思路

[0003]本专利技术的目的是针对上述问题,提供一种能够提高正确度的基于人脸网格的语音合成系统。
[0004]为达到上述目的,本专利技术采用了下列技术方案:本基于人脸网格的语音合成系统,包括如下步骤:
[0005]S1.搭建唇动模型,通过编码器从视频数据中提取唇动级特征;
[0006]S2.视频语音识别,选择视频作为模型的输,并通过唇动视频预测说话者所讲述的内容,形成文本;
[0007]S3.文本到语音生成,通过自回归的方式合成文本所对应的梅尔频谱,再通过音频解码器合成音频波形。
[0008]在上述的基于人脸网格的语音合成系统中,编码器使用2D卷积网络从Landmarks中提取唇动高级特征。
[0009]在上述的基于人脸网格的语音合成系统中,通过选取视频网站上若干不同说话者总共长为120小时的视频构建了Lip2Wav数据集;
[0010]单一说话者所叙述的内容具有相同的上下文语境,并合成与演讲者音色、风格相近的音频内容。
[0011]在上述的基于人脸网格的语音合成系统中,从有序的唇动序列L=(l1,l2,

,l
t
)中预测对应频段的梅尔频谱S=(s1,s2,

,s
t

);
[0012]时刻的语音时间步s
k
应该根据以下方程进行建模:
[0013]s
k

=f(l
k∈(k
±
δ)
,s<k

)。
[0014]在上述的基于人脸网格的语音合成系统中,编码器中创建多层卷积网络,每层卷积网络扩展表征特征的通道数量,网络采用残差链接和批量归一化。
[0015]在上述的基于人脸网格的语音合成系统中,使卷积络编码时空唇动Landmarks,模型络接受维度是F的唇动信息作为输;
[0016]将表征Features Landmark的不同的卷积通道进处理;
[0017]编码器中创建了多层卷积络,每层卷积络扩展表征特征的通道数量,络之间使用残差链接和批量归化;
[0018]在最后层卷机络中会将三维坐标采样为一维特征,时间维度将直进保留;卷积络部分最终的输出是维度F的张量,其中F是对每时间步建模的特征数量。
[0019]在上述的基于人脸网格的语音合成系统中,解码器在合成时间步的梅尔频谱输出的时候,解码器会接受时间步的输出,并与编码器所提取唇动信息级特征计算注意,再通过两个单向的LSTM络对前的短时信息进抽取,并使Linear Projection Layer合成该时间步的梅尔频谱输出。
[0020]在上述的基于人脸网格的语音合成系统中,在编码器的真实梅尔频谱加定的随机噪声,其中,l1是上训练轮次的损失;
[0021]添加了噪声的梅尔谱图具有与预测的梅尔谱图致的l1距离:l
l
(Target+Noise,Target)=l
l
(Predict,Target)。
[0022]在上述的基于人脸网格的语音合成系统中,在预处理阶段进矫正和归化处理。
[0023]在上述的基于人脸网格的语音合成系统中,通过一般矫正或空间旋转算法对面部点位进行矫正。
[0024]与现有的技术相比,本基于人脸网格的语音合成系统的优点在于:1、能够提高正确度,直接通过高级特征(唇部动作)进行唇读。2、可以合成无声监控下目标所说内容的音频。3、在噪声环境下通过合成目标的语音为降噪任务提供参考。4、为后天失语的残障人士合成声音。
具体实施方式
[0025]下面结合具体实施方式对本专利技术做进一步详细的说明。
[0026]本申请提出了种新的针对Face Mesh Landmarks的特征提取编码器,据我们所知,前的研究中鲜有使Face Mesh Landmarks作为输模态的研究。在此基础上构建了(模型名称)模型,次实现了从唇读动作合成然语频的唇读模型。该模型有潜直接通过唇部动作捕捉合成然频。
[0027]本使了种创新的Scheduled Sampling Method于编码器

6构模型信息权重失衡时强迫模型进对齐。
[0028]本文提出了一种新的针对Face Mesh Landmarks的特征提取编码器,据我们所知,目前的研究中鲜有使用Face Mesh Landmarks作为输入模态的研究。在此基础上构建了(模型名称)模型,首次实现了从唇读动作合成自然语言音频的唇读模型。该模型有潜力直接通过唇部动作捕捉合成自然音频。
[0029]本文使用了一种创新的Scheduled Sampling Method用于编码器

解码器结构模型信息权重失衡时强迫模型进行对齐。
[0030]与唇语识别相关的大多数研究【4,5,6】通常会直觉的选择视频作为模型的输入,并通过唇动视频预测说话者所讲述的内容,即视频语言预测。一些工作【7,8】选择CNN网络从视频数据中提取唇动高级特征,基于此预测说话者所说的内容。随着seq2seq模型在其他领域的突出表现,一些研究【9,10】结合LSTM与Transformer的结构,更多的考虑时间序列上对唇读结果的影响。基于视频预测唇读内容的工作所使用的数据集需要进行额外的文本标
注,因此也有一些工作【11】会使用语音识别技术对唇读内容进行快速标注。通过文本生成自然语音的研究已经有相当悠久的历史,研究者提出了多种不同的技术手段以解决这一问题【12,13】。然而,这些方法合成的音频相比于人类的自然发音通常会显得相对低沉,在诸如智能语音助手这样的使用场景下容易产生恐怖谷效应,带来不好的体验。基于深度神经网络构建的端到端语音合成系统则能够合成更加接近人类发音的自然音频。Tacotron2【14】模型是由Google提出的端到端语音合成系统,通过自回归的方式合成文本所对应的梅尔频谱,再通过WaveRNN【15】或者Waveglow【16】等音频解码器合成音频波形。为了能够合成更加真实、自然的音频,我们的模型在解码器的部分选择了与Tacotron2模型相似的结构,并同样选择了梅尔频谱作为中介特征。实验结果表明合成的音频具有较高的音频质量,我们也选择了一些能够衡量音频质量的指标对合成的结果进行评估。Prajwal等【17】受到了Tacotr本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人脸网格的语音合成系统,其特征在于,包括如下步骤:S1.搭建唇动模型,通过编码器从视频数据中提取唇动级特征;S2.视频语音识别,选择视频作为模型的输,并通过唇动视频预测说话者所讲述的内容,形成文本;S3.文本到语音生成,通过自回归的方式合成文本所对应的梅尔频谱,再通过音频解码器合成音频波形。2.根据权利要求1所述的基于人脸网格的语音合成系统,其特征在于,步骤S1中,编码器使用2D卷积网络从Landmarks中提取唇动高级特征。3.根据权利要求2所述的基于人脸网格的语音合成系统,其特征在于,在步骤S1中,通过选取视频网站上若干不同说话者总共长为120小时的视频构建了Lip2Wav数据集;在步骤S3中,单一说话者所叙述的内容具有相同的上下文语境,并合成与演讲者音色、风格相近的音频内容。4.根据权利要求3所述的基于人脸网格的语音合成系统,其特征在于,在步骤S3中,从有序的唇动序列L=(l1,l2,

,l
t
)中预测对应频段的梅尔频谱S=(s1,s2,

,s
t

);时刻的语音时间步s
k
应该根据以下方程进行建模:s
k

=f(l
k∈(k
±
δ)
,s
<k

)。5.根据权利要求1所述的基于人脸网格的语音合成系统,其特征在于,编码器中创建多层卷积网络,每层卷积网...

【专利技术属性】
技术研发人员:金宸极林菲张聪
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1