当前位置: 首页 > 专利查询>南开大学专利>正文

基于卷积网络和编码器解码器模型的多语种语音合成方法技术

技术编号:35231062 阅读:24 留言:0更新日期:2022-10-15 10:52
本发明专利技术公开了一种基于卷积网络和编码器解码器模型的多语种语音合成方法,将待合成的多语种文本信息不经过音素化而是直接按照一定的标准转换为图片,图片中每个字符的长度和宽度是预先定义好的,并且蕴含了重音、韵律、音色、情感等发音信息;然后对生成的图片进行特征提取,再将提取到的图片特征信息送入声学模型中,完成从图片特征到声学特征的映射,最后利用声码器进一步还原为语音波形,生成目标语音。本发明专利技术简化了多语种语音合成问题前端处理流程,避免了注音问题和归一化等问题;提升多语种语音合成模块的可扩展性,可以在模型结构不发生变化的情况下将模型功能进行拓展。不发生变化的情况下将模型功能进行拓展。不发生变化的情况下将模型功能进行拓展。

【技术实现步骤摘要】
基于卷积网络和编码器解码器模型的多语种语音合成方法


[0001]本专利技术属于计算机处理
,具体涉及一种基于卷积网络和编码器解码器模型的多语种语音合成方法。

技术介绍

[0002]出现多语种语言信息成为了社交媒体文本、交往对话和语音导航中普遍存在的现象,这在语言学中称为语码转换(CS)。而目前的语音合成系统,虽然能从单一语种文本中合成较为自然、流畅的语音,但在处理多语种文本时会面临数据缺乏、发音不流畅、前端处理复杂等挑战,这也促进了对多语种语音合成问题的研究。
[0003]目前针对多语种语音合成问题的一般解决方法是利用国际音标表(IPA)或共享音素集将多语种文本信息转换为具有统一标识的音素文本,然后将前端模块预测的韵律信息、重读信息等以特殊的符号标注在音素文本中,形成前端抄本。然后将前端抄本中的每个字符通过词嵌入表(word embedding)转换为对应的向量,形成文本特征。然后利用声学模型将文本特征转换为声学特征梅尔谱,再利用声码器进一步估计相位信息,将梅尔谱还原为语音波形。然后计算机就可以利用语音波形发出声音,完成多语种语音合成任务。
[0004]在上述方法基础上衍生了多种模型和特征提取结构,但仍普遍存在两大问题。一是前端处理流程比较复杂,多种语言首先需要利用各自的发音规则进行音素化,如中文需要进行注音,尤其是处理多音字,而英文需要利用发音词典进行转换,对未登录词(OOV)也需要单独处理;然后再通过国际音标表或预置的共享音素集进行统一,最后再添入重音、韵律等发音有关信息。二是模型功能不易扩展,在现有模型上进一步扩展多说话人语音合成、情感语音合成时必须添加相应的说话人音色或情感特征提取模块,或者增加输入信息和嵌入层才可以实现对应功能拓展。

技术实现思路

[0005]为了应对现有多语种语音合成方法中前端处理复杂和模型功能不易扩展的问题,本专利技术提供一种基于卷积网络和编码器解码器模型的多语种语音合成方法,该方法不仅能简化前端对多语种文本的处理流程,而且再不增加任何模块的基础上可以实现多说话人语音合成、情感语音合成等功能扩展。
[0006]本专利技术是通过以下技术方案实现的:一种基于卷积网络和编码器解码器模型的多语种语音合成方法,包括以下步骤:步骤S1,将多语种文本转换为具有设定格式的视觉文本图片;步骤S2,基于卷积网络的视觉特征提取模型滑动提取图片特征;步骤S3,基于编码器

解码器的声学特征提取模型将步骤S2提取到的图片特征转换为声学特征;步骤S4,使用声码器将步骤S3得到的声学特征转换为对应的音频。
[0007]在上述技术方案中,步骤S1中,图片中每个字符长度w,高度为h,字符个数为n,生
成图片的大小为wn
×
h。
[0008]在上述技术方案中,步骤S1中,在图片中,针对每个字符,通过标注以及设置字符的颜色、字体、加粗、加黑等手段,来表示字符的重音、韵律、音色、情感等语音信息。
[0009]在上述技术方案中,步骤S1中,在图片中,通过将字符标黑来表征该字符的重音信息,通过在字符的上方标注符号的方式来表征字符的不同等级的韵律,通过设置字符的字体来表征字符的不同音色,通过设置字符的颜色来表征字符的情感信息。
[0010]在上述技术方案中,步骤S2中,滑动窗口的窗长设置为2

5个字符长度。
[0011]在上述技术方案中,步骤S3中,所述声学特征为梅尔频谱。
[0012]在上述技术方案中,步骤S4中,采用HiFi

GAN的声码器将梅尔频谱转换为对应音频。
[0013]在上述技术方案中,步骤S4中,采用WaveNet的声码器将梅尔频谱转换为对应音频。
[0014]在上述技术方案中,步骤S4中,采用WaveGAN的声码器将梅尔频谱转换为对应音频。
[0015]本专利技术还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被执行时实现上述的方法的步骤。
[0016]本专利技术的优点和有益效果为:本专利技术将待合成的多语种文本信息不经过音素化而是直接按照一定的标准转换为图片,图片中每个字符的长度和宽度是预先定义好的,并且蕴含了重音、韵律、音色、情感等发音信息;然后对生成的图片进行特征提取,再将提取到的图片特征信息送入声学模型中,完成从图片特征到声学特征的映射,最后利用声码器进一步还原为语音波形,生成目标语音。本专利技术简化了多语种语音合成问题前端处理流程,避免了注音问题和归一化等问题;提升多语种语音合成模块的可扩展性,可以在模型结构不发生变化的情况下将模型功能进行拓展。
附图说明
[0017]图1是本专利技术的基于卷积网络和编码器解码器模型的多语种语音合成方法的步骤流程图。
[0018]对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据以上附图获得其他的相关附图。
具体实施方式
[0019]为了使本
的人员更好地理解本专利技术方案,下面结合具体实施例进一步说明本专利技术的技术方案。
[0020]一种基于卷积网络和编码器解码器模型的多语种语音合成方法,包括以下步骤:步骤S1,将多语种文本转换为具有设定格式的视觉文本图片。
[0021]针对包含两种及以上语言的多语种文本,该步骤是将多语种文本转换为特定格式的图片,每个图片中每个字符长度w,高度为h,字符个数为n,则生成图片的大小为wn
×
h。在图片中,针对每个字符,可以通过标注以及设置字符的颜色、字体、加粗、加黑等手段,来表
示字符的重音、韵律、音色、情感等信息。例如:可以通过将字符标黑来表征该字符的重音信息,通过在字符的上方标注“#1”、“#2”等符号的方式来表征字符的不同等级的韵律,通过设置字符的字体来表征字符的不同音色(比如行楷、宋体、幼圆、方正等字体可以代表不同的说话人音色),而情感信息可以通过设置字符的颜色来表示。在这个过程中不需要针对每种文本进行单独的音素化处理,也就避免了在音素化处理过程中出现的多音字消歧、未登录词无法注音等问题。同时,由于多种语言的文本都以统一标准转换为图片,不需要再利用国际音标表等方法进行转化,从而简化了前端处理流程。
[0022]步骤S2,基于卷积网络的视觉特征提取模型滑动提取图片特征。
[0023]通过步骤S1,将多语种文本生成了统一标准的视觉文本图片,本步骤采用卷积网络通过滑动窗口依次提取图片特征,滑动窗口的窗长设置为nw,w为字符长度,n的范围是2≤n≤5;滑动窗口不仅能提取图片中的单个字符信息,也能有效提取上下文信息,进而能提升语音合成效果。
[0024]卷积网络包括输入层(Input Layer)、卷积层(Convolutional layer)、池化层(Pooling layer)、全连接层(Fully

Connected Layer)以及输出层(Output Layer)等结构。卷积层用于是对输入层的数据进行特征提取,卷积层内部包括多个卷积本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积网络和编码器解码器模型的多语种语音合成方法,其特征在于,包括以下步骤:步骤S1,将多语种文本转换为具有设定格式的视觉文本图片;步骤S2,基于卷积网络的视觉特征提取模型滑动提取图片特征;步骤S3,基于编码器

解码器的声学特征提取模型将步骤S2提取到的图片特征转换为声学特征;步骤S4,使用声码器将步骤S3得到的声学特征转换为对应的音频。2.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法,其特征在于:步骤S1中,图片中每个字符长度w,高度为h,字符个数为n,生成图片的大小为wn
×
h。3.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法,其特征在于:步骤S1中,在图片中,针对每个字符,通过标注以及设置字符的颜色、字体、加粗、加黑的手段,来表示字符的重音、韵律、音色、情感语音信息。4.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法,其特征在于:步骤S1中,在图片中,通过将字符标黑来表征该字符的重音信息,通过在字符的上方标注符号的方式来表征字符的不同等级的韵...

【专利技术属性】
技术研发人员:秦勇王卉李起成周家名雪琛贺佳贝
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1