基于卷积网络和编码器解码器模型的多语种语音合成方法技术

技术编号：35231062 阅读：24 留言：0更新日期：2022-10-15 10:52

本发明专利技术公开了一种基于卷积网络和编码器解码器模型的多语种语音合成方法，将待合成的多语种文本信息不经过音素化而是直接按照一定的标准转换为图片，图片中每个字符的长度和宽度是预先定义好的，并且蕴含了重音、韵律、音色、情感等发音信息；然后对生成的图片进行特征提取，再将提取到的图片特征信息送入声学模型中，完成从图片特征到声学特征的映射，最后利用声码器进一步还原为语音波形，生成目标语音。本发明专利技术简化了多语种语音合成问题前端处理流程，避免了注音问题和归一化等问题；提升多语种语音合成模块的可扩展性，可以在模型结构不发生变化的情况下将模型功能进行拓展。不发生变化的情况下将模型功能进行拓展。不发生变化的情况下将模型功能进行拓展。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积网络和编码器解码器模型的多语种语音合成方法

[0001]本专利技术属于计算机处理
，具体涉及一种基于卷积网络和编码器解码器模型的多语种语音合成方法。

技术介绍

[0002]出现多语种语言信息成为了社交媒体文本、交往对话和语音导航中普遍存在的现象，这在语言学中称为语码转换(CS)。而目前的语音合成系统，虽然能从单一语种文本中合成较为自然、流畅的语音，但在处理多语种文本时会面临数据缺乏、发音不流畅、前端处理复杂等挑战，这也促进了对多语种语音合成问题的研究。
[0003]目前针对多语种语音合成问题的一般解决方法是利用国际音标表（IPA）或共享音素集将多语种文本信息转换为具有统一标识的音素文本，然后将前端模块预测的韵律信息、重读信息等以特殊的符号标注在音素文本中，形成前端抄本。然后将前端抄本中的每个字符通过词嵌入表（word embedding）转换为对应的向量，形成文本特征。然后利用声学模型将文本特征转换为声学特征梅尔谱，再利用声码器进一步估计相位信息，将梅尔谱还原为语音波形。然后计算机就可以利用语音波形发出声音，完成多语种语音合成任务。
[0004]在上述方法基础上衍生了多种模型和特征提取结构，但仍普遍存在两大问题。一是前端处理流程比较复杂，多种语言首先需要利用各自的发音规则进行音素化，如中文需要进行注音，尤其是处理多音字，而英文需要利用发音词典进行转换，对未登录词（OOV）也需要单独处理；然后再通过国际音标表或预置的共享音素集进行统一，最后再添入重音、韵律等发音有关信息。二是模型功能不易扩...

【技术保护点】

【技术特征摘要】
1.一种基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于，包括以下步骤：步骤S1，将多语种文本转换为具有设定格式的视觉文本图片；步骤S2，基于卷积网络的视觉特征提取模型滑动提取图片特征；步骤S3，基于编码器
‑
解码器的声学特征提取模型将步骤S2提取到的图片特征转换为声学特征；步骤S4，使用声码器将步骤S3得到的声学特征转换为对应的音频。2.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S1中，图片中每个字符长度w，高度为h，字符个数为n，生成图片的大小为wn
×
h。3.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S1中，在图片中，针对每个字符，通过标注以及设置字符的颜色、字体、加粗、加黑的手段，来表示字符的重音、韵律、音色、情感语音信息。4.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S1中，在图片中，通过将字符标黑来表征该字符的重音信息，通过在字符的上方标注符号的方式来表征字符的不同等级的韵...

【专利技术属性】
技术研发人员：秦勇，王卉，李起成，周家名，雪琛，贺佳贝，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人