一种基于分层韵律预测的多语言语音合成方法及系统技术方案

技术编号:36187873 阅读:17 留言:0更新日期:2022-12-31 20:56
本发明专利技术公开了一种基于分层韵律预测的多语言语音合成方法,包括如下步骤:S1、制作训练集,获取不同说话人的多语言标准参考音频及对应的样本文本,对其进行预处理得到训练样本,并制作成训练集;S2、构建并训练语音合成模型,通过预处理后的训练集对构建的语音合成模型进行训练;S3、语音合成,训练好后的语音合成模型根据输入的待合成文本和参考音频生成指定声音风格的多语言语音,经由声码器输出。以在多语言穿插使用的场景下更有效地提取文本和参考音频中的韵律特征,提升合成语音韵律的灵活度和可控性,细粒度调控韵律以提高合成语音的自然度,并实现复制任一说话人声音、迁移任一说话风格的功能。一说话风格的功能。一说话风格的功能。

【技术实现步骤摘要】
一种基于分层韵律预测的多语言语音合成方法及系统


[0001]本专利技术属于语音合成领域,涉及多语言混合的语音合成,尤其涉及一种基于分层韵律预测的多语言语音合成方法及系统。

技术介绍

[0002]语音合成,是通过机械或电子的方式将文字转换成语音的技术。近年来,基于神经网络的语音合成逐渐成为主流,其可直接学习文本序列端到声学特征端之间的对应关系,并进一步对人类语音中的韵律(如:语调、节奏、速度、音量等)进行建模,提高了合成语音的质量和自然度。然而,上述方法对韵律的控制往往仅考虑单语种情况。
[0003]在现今人们的日常交流中,经常会有多种语言穿插使用的情况,特别是在医学和计算机等领域存在大量跨语种专有名词,比如“从事NLP方面的工作。”,该现象在语言学中称为语码转换。因此,为了适应这种现状,语音合成系统不应局限于单一语种的语音合成,而应拓展为多语言的语音合成系统。
[0004]然而构建多语言语音合成系统存在如下技术问题:(1)不同语言之间具有不同的字素和发音,增加了多语言语音合成的难度;(2)多语言的语料具有稀疏性,即某些语言只有少量说话人单一声音风格的录音数据,且同一说话人说多种语言的语料较少,不足以训练深度神经网络;(3)多语言语音需要比单语言更多的韵律信息以保障合成语音的自然度,相关技术提出的语音风格提取模块和基于全局风格令牌的风格特征聚类方法仅能实现粗粒度(句级)调控语音风格,无法实现细粒度(短语级、词级、音素级)的韵律变化,且缺乏面向输入文本序列的风格学习方法,语音合成系统对文本中韵律信息的利用存在缺陷。

技术实现思路

[0005]本专利技术的目的在于解决上述技术问题,提出一种基于分层韵律预测的多语言语音合成方法及系统,以在多语言穿插使用的场景下更有效地提取文本和参考音频中的韵律特征,提升合成语音韵律的灵活度和可控性,细粒度调控韵律以提高合成语音的自然度,并实现复制任一说话人声音、迁移任一说话风格的功能。
[0006]为了解决上述技术问题,本专利技术的技术方案为:
[0007]一种基于分层韵律预测的多语言语音合成方法,包括如下步骤:
[0008]S1、制作训练集
[0009]获取不同说话人的多语言标准参考音频及对应的样本文本,对其进行预处理得到训练样本,并制作成训练集;
[0010]S2、构建并训练语音合成模型
[0011]S21、构建语音合成模型,所述语音合成模型包括生成卷积编码器、说话人编码器、批量实例标准化全局风格标注层、韵律模块、对抗式说话人分类器、注意力机制模块、生成对抗网络、解码器;
[0012]S22、通过预处理后的训练集对构建的语音合成模型进行训练;
[0013]S3、语音合成
[0014]训练好后的语音合成模型根据输入的待合成文本和参考音频生成指定声音风格的多语言语音,经由声码器输出。
[0015]本专利技术涉及以下定义:
[0016]定义1:合成器,是指由生成卷积编码器、注意力机制、解码器组成的一个生成器,用以持续输出合成的梅尔频谱图。
[0017]定义2:语言ID,是指文本的附加信息,用以区分多语言发音。例如:当文本为英文时,会标记其语言ID为“en”;为中文时,则标记为“zh”。
[0018]定义3:说话人ID,是指在多说话人数据集中,区分语音所属说话人的编码。
[0019]定义4:IPA,即国际音标,是指口语声音的标准化标示方法,用以精确地记录和区分发音。
[0020]作为优选,所述步骤S1中,预处理的方法为:提取样本文本的特征向量,并将标准参考音频转化为梅尔频谱图。
[0021]作为优选,所述特征向量包括说话人ID特征向量、词级特征、字符向量和语言ID特征向量。
[0022]作为优选,所述韵律模块由词级、IPA级的风格提取器与风格预测器组成;所述生成卷积编码器由上下文参数生成器和文本编码器构成。
[0023]作为优选,所述步骤S22中,语音合成模型的训练方法包括如下子步骤:
[0024]S221、将语言ID特征向量输入上下文参数生成器,得到文本编码器中每层网络所需的参数,文本编码器同时对多语言文本进行编码得到IPA语音特征,并将字符向量转换为隐藏层语音特征,输出语音文本特征向量;
[0025]S222、将生成卷积编码器输出的语音文本特征向量作为对抗式说话人分类器的输入,通过自适应平均池化层、一层全连接层和L2范式正规化,得到该文本的说话人特征信息,而后进行反向更新,通过梯度反转层,将传向生成卷积编码器的梯度乘以负常数值,达到对抗训练的效果,使生成卷积编码器的输出无法被区分出所属说话人,从而解耦说话人特征与文本内容特征,即让文本编码器学习独立于说话人的文本信息,使得系统能够跨语言转换说话人声音;
[0026]S223、通过梅尔频谱图提取的多源特征分别与语音文本特征向量进行拼接;
[0027]S224、注意力机制将语音文本特征向量总结成每个解码时间步的上下文权重向量;
[0028]S225、解码器根据语音文本特征向量、多源特征与上下文权重向量,预测出对应的梅尔频谱图;
[0029]S226、在训练过程中利用生成对抗网络提升语音质量。
[0030]作为优选,所述步骤S223的方法为:
[0031]将梅尔频谱图输入说话人编码器,提取说话人声音特征,并与生成卷积编码器输出的语音文本特征向量拼接;
[0032]将梅尔频谱图输入批量实例标准化全局风格标注层,提取句级说话人风格特征,并与生成卷积编码器输出的语音文本特征向量拼接;
[0033]将词级特征、IPA语音特征和梅尔频谱图输入韵律模块,使用平均绝对误差作为损
失函数进行训练,分层预测出IPA级文本风格特征,并与生成卷积编码器输出的语音文本特征向量拼接。
[0034]所述步骤S225中,解码器根据语音文本特征向量、说话人声音特征、句级说话人风格特征和IPA级文本风格特征与上下文向量,预测出对应的梅尔频谱图。
[0035]作为优选,所述生成对抗网络包括生成器和鉴别器,所述生成器为一个合成器,所述鉴别器为一个二元分类器。
[0036]作为优选,所述生成对抗网络提升语音质量的方法为:所述合成器输入为文本和标准参考音频,输出为合成的梅尔频谱图;同时加入一个二元分类器作为鉴别器,以判定输入为真实或是合成的梅尔频谱图,经过多次迭代训练后,直至合成器逐渐生成鉴别器无法辨别真伪的梅尔频谱图,即表示合成器输出的语料越趋近于真实,因此达到进一步提升语音质量的效果。
[0037]作为优选,步骤S3包括如下步骤:
[0038]S31、对待合成的文本和任一说话人的参考音频进行预处理,作为训练好的语音合成模型的输入;
[0039]S32、语音合成模型输出对应所述文本内容的指定说话人声音风格的梅尔频谱图;
[0040]S33、声码器将梅尔频谱图转换为语音信号,实现语音的即时生成。
[0041]进一步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层韵律预测的多语言语音合成方法,其特征在于,包括如下步骤:S1、制作训练集获取不同说话人的多语言标准参考音频及对应的样本文本,对其进行预处理得到训练样本,并制作成训练集;S2、构建并训练语音合成模型S21、构建语音合成模型,所述语音合成模型包括生成卷积编码器、说话人编码器、批量实例标准化全局风格标注层、韵律模块、对抗式说话人分类器、注意力机制模块、生成对抗网络、解码器;S22、通过预处理后的训练集对构建的语音合成模型进行训练;S3、语音合成训练好后的语音合成模型根据输入的待合成文本和参考音频生成指定声音风格的多语言语音,经由声码器输出。2.根据权利要求1所述的基于分层韵律预测的多语言语音合成方法,其特征在于,所述步骤S1中,预处理的方法为:提取样本文本的特征向量,并将标准参考音频转化为梅尔频谱图。3.根据权利要求2所述的基于分层韵律预测的多语言语音合成方法,其特征在于,所述特征向量包括说话人ID特征向量、词级特征、字符向量和语言ID特征向量。4.根据权利要求3所述的基于分层韵律预测的多语言语音合成方法,其特征在于,所述韵律模块由词级、IPA级的风格提取器与风格预测器组成;所述生成卷积编码器由上下文参数生成器和文本编码器构成。5.根据权利要求4所述的基于分层韵律预测的多语言语音合成方法,其特征在于,所述步骤S22中,语音合成模型的训练方法包括如下子步骤:S221、将语言ID特征向量输入上下文参数生成器,得到文本编码器中每层网络所需的参数,文本编码器同时对多语言文本进行编码得到IPA语音特征,并将字符向量转换为隐藏层语音特征,输出语音文本特征向量;S222、将生成卷积编码器输出的语音文本特征向量作为对抗式说话人分类器的输入,通过自适应平均池化层、一层全连接层和L2范式正规化,得到该文本的说话人特征信息,而后进行反向更新,通过梯度反转层,将传向生成卷积编码器的梯度乘以负常数值,使生成卷积编码器的输出无法被区分出所属说话人,从而解耦说话人特征与文本内容特征;S223、通过梅尔频谱图提取的多源特征分别与语音文本特征向量进行拼接;S224、注意力机制将语音文本特征向量总结成每个解码时间步的上下文权重向量;S225、解码器根据语音文本特征向量、多源特征与上下文权重向量,预测出对应...

【专利技术属性】
技术研发人员:王秋华陈嘉怡李逸佳吴国华任一支
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1