基于人脸网格的语音合成系统技术方案

技术编号：38997993 阅读：14 留言：0更新日期：2023-10-07 10:29

本发明专利技术属于计算机视觉技术领域，尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤：S1.搭建唇动模型，通过编码器从视频数据中提取唇动级特征；S2.视频语音识别，选择视频作为模型的输，并通过唇动视频预测说话者所讲述的内容，形成文本；S3.文本到语音生成，通过自回归的方式合成文本所对应的梅尔频谱，再通过音频解码器合成音频波形。与现有的技术相比，本基于人脸网格的语音合成系统的优点在于：能够提高正确度，直接通过高级特征(唇部动作)进行唇读。作)进行唇读。

全部详细技术资料下载

【技术实现步骤摘要】
基于人脸网格的语音合成系统

[0001]本专利技术属于计算机视觉
，尤其涉及一种带基于人脸网格的语音合成系统。

技术介绍

[0002]人类说话时的唇部动作与发音的关系已经在之前的诸多研究中被证实。经过训练的专业人士可以够通过观察他人的唇形对其所说的内容加以理解，即读唇术，这一手段也被用于辅助听力障碍人士与他人进行交流。但是，这依赖人工完成效率太低，虽然现有也具有人工智能能够进行翻译，但是正确率任然不够理想。基于此，需要一种能够替代人工进行读唇，并能够提高正确率的设施。

技术实现思路

[0003]本专利技术的目的是针对上述问题，提供一种能够提高正确度的基于人脸网格的语音合成系统。
[0004]为达到上述目的，本专利技术采用了下列技术方案：本基于人脸网格的语音合成系统，包括如下步骤：
[0005]S1.搭建唇动模型，通过编码器从视频数据中提取唇动级特征；
[0006]S2.视频语音识别，选择视频作为模型的输，并通过唇动视频预测说话者所讲述的内容，形成文本；
[0007]S3.文本到语音生成，通过自回归的方式合成文本所对应的梅尔频谱，再通过音频解码器合成音频波形。
[0008]在上述的基于人脸网格的语音合成系统中，编码器使用2D卷积网络从Landmarks中提取唇动高级特征。
[0009]在上述的基于人脸网格的语音合成系统中，通过选取视频网站上若干不同说话者总共长为120小时的视频构建了Lip2Wav数据集；
[0010]单一说话者所叙述的内容具...

【技术保护点】

【技术特征摘要】
1.一种基于人脸网格的语音合成系统，其特征在于，包括如下步骤：S1.搭建唇动模型，通过编码器从视频数据中提取唇动级特征；S2.视频语音识别，选择视频作为模型的输，并通过唇动视频预测说话者所讲述的内容，形成文本；S3.文本到语音生成，通过自回归的方式合成文本所对应的梅尔频谱，再通过音频解码器合成音频波形。2.根据权利要求1所述的基于人脸网格的语音合成系统，其特征在于，步骤S1中，编码器使用2D卷积网络从Landmarks中提取唇动高级特征。3.根据权利要求2所述的基于人脸网格的语音合成系统，其特征在于，在步骤S1中，通过选取视频网站上若干不同说话者总共长为120小时的视频构建了Lip2Wav数据集；在步骤S3中，单一说话者所叙述的内容具有相同的上下文语境，并合成与演讲者音色、风格相近的音频内容。4.根据权利要求3所述的基于人脸网格的语音合成系统，其特征在于，在步骤S3中，从有序的唇动序列L＝(l1，l2，
…
，l
t
)中预测对应频段的梅尔频谱S＝(s1，s2，
…
，s
t
′
)；时刻的语音时间步s
k
应该根据以下方程进行建模：s
k
′
＝f(l
k∈(k
±
δ)
，s
＜k
′
)。5.根据权利要求1所述的基于人脸网格的语音合成系统，其特征在于，编码器中创建多层卷积网络，每层卷积网...

【专利技术属性】
技术研发人员：金宸极，林菲，张聪，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人