一种基于分层韵律预测的多语言语音合成方法及系统技术方案

技术编号：36187873 阅读：17 留言：0更新日期：2022-12-31 20:56

本发明专利技术公开了一种基于分层韵律预测的多语言语音合成方法，包括如下步骤：S1、制作训练集，获取不同说话人的多语言标准参考音频及对应的样本文本，对其进行预处理得到训练样本，并制作成训练集；S2、构建并训练语音合成模型，通过预处理后的训练集对构建的语音合成模型进行训练；S3、语音合成，训练好后的语音合成模型根据输入的待合成文本和参考音频生成指定声音风格的多语言语音，经由声码器输出。以在多语言穿插使用的场景下更有效地提取文本和参考音频中的韵律特征，提升合成语音韵律的灵活度和可控性，细粒度调控韵律以提高合成语音的自然度，并实现复制任一说话人声音、迁移任一说话风格的功能。一说话风格的功能。一说话风格的功能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分层韵律预测的多语言语音合成方法及系统

[0001]本专利技术属于语音合成领域，涉及多语言混合的语音合成，尤其涉及一种基于分层韵律预测的多语言语音合成方法及系统。

技术介绍

[0002]语音合成，是通过机械或电子的方式将文字转换成语音的技术。近年来，基于神经网络的语音合成逐渐成为主流，其可直接学习文本序列端到声学特征端之间的对应关系，并进一步对人类语音中的韵律(如：语调、节奏、速度、音量等)进行建模，提高了合成语音的质量和自然度。然而，上述方法对韵律的控制往往仅考虑单语种情况。
[0003]在现今人们的日常交流中，经常会有多种语言穿插使用的情况，特别是在医学和计算机等领域存在大量跨语种专有名词，比如“从事NLP方面的工作。”，该现象在语言学中称为语码转换。因此，为了适应这种现状，语音合成系统不应局限于单一语种的语音合成，而应拓展为多语言的语音合成系统。
[0004]然而构建多语言语音合成系统存在如下技术问题：(1)不同语言之间具有不同的字素和发音，增加了多语言语音合成的难度；(2)多语言的语料具有稀疏性，即某些语言只有少量说话人单一声音风格的录音数据，且同一说话人说多种语言的语料较少，不足以训练深度神经网络；(3)多语言语音需要比单语言更多的韵律信息以保障合成语音的自然度，相关技术提出的语音风格提取模块和基于全局风格令牌的风格特征聚类方法仅能实现粗粒度(句级)调控语音风格，无法实现细粒度(短语级、词级、音素级)的韵律变化，且缺乏面向输入文本序列的风格学习方法，语音合成系统对文本中韵律信息的利用...

【技术保护点】

【技术特征摘要】
1.一种基于分层韵律预测的多语言语音合成方法，其特征在于，包括如下步骤：S1、制作训练集获取不同说话人的多语言标准参考音频及对应的样本文本，对其进行预处理得到训练样本，并制作成训练集；S2、构建并训练语音合成模型S21、构建语音合成模型，所述语音合成模型包括生成卷积编码器、说话人编码器、批量实例标准化全局风格标注层、韵律模块、对抗式说话人分类器、注意力机制模块、生成对抗网络、解码器；S22、通过预处理后的训练集对构建的语音合成模型进行训练；S3、语音合成训练好后的语音合成模型根据输入的待合成文本和参考音频生成指定声音风格的多语言语音，经由声码器输出。2.根据权利要求1所述的基于分层韵律预测的多语言语音合成方法，其特征在于，所述步骤S1中，预处理的方法为：提取样本文本的特征向量，并将标准参考音频转化为梅尔频谱图。3.根据权利要求2所述的基于分层韵律预测的多语言语音合成方法，其特征在于，所述特征向量包括说话人ID特征向量、词级特征、字符向量和语言ID特征向量。4.根据权利要求3所述的基于分层韵律预测的多语言语音合成方法，其特征在于，所述韵律模块由词级、IPA级的风格提取器与风格预测器组成；所述生成卷积编码器由上下文参数生成器和文本编码器构成。5.根据权利要求4所述的基于分层韵律预测的多语言语音合成方法，其特征在于，所述步骤S22中，语音合成模型的训练方法包括如下子步骤：S221、将语言ID特征向量输入上下文参数生成器，得到文本编码器中每层网络所需的参数，文本编码器同时对多语言文本进行编码得到IPA语音特征，并将字符向量转换为隐藏层语音特征，输出语音文本特征向量；S222、将生成卷积编码器输出的语音文本特征向量作为对抗式说话人分类器的输入，通过自适应平均池化层、一层全连接层和L2范式正规化，得到该文本的说话人特征信息，而后进行反向更新，通过梯度反转层，将传向生成卷积编码器的梯度乘以负常数值，使生成卷积编码器的输出无法被区分出所属说话人，从而解耦说话人特征与文本内容特征；S223、通过梅尔频谱图提取的多源特征分别与语音文本特征向量进行拼接；S224、注意力机制将语音文本特征向量总结成每个解码时间步的上下文权重向量；S225、解码器根据语音文本特征向量、多源特征与上下文权重向量，预测出对应...

【专利技术属性】
技术研发人员：王秋华，陈嘉怡，李逸佳，吴国华，任一支，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人