一种不依赖发音词典的语音合成系统及方法技术方案

技术编号：33482462 阅读：11 留言：0更新日期：2022-05-19 00:56

本发明专利技术公开了一种不依赖发音词典的语音合成系统及方法，系统包括：语种无关的语音识别模型、文本

全部详细技术资料下载

【技术实现步骤摘要】
一种不依赖发音词典的语音合成系统及方法

[0001]本专利技术涉及语音信号处理领域，尤其涉及一种语音合成系统及方法。

技术介绍

[0002]语音合成(speech synthesis)旨在使机器像人类一样流畅自然地说话，它具有广泛的应用，例如语音助手和有声小说。一个语音合成系统通常由两部分组成：前端和后端。前端侧重于文本分析，其将文本序列转换为语言学特征，它具有一系列功能，如文本归一化、字音转换、分词、词性标注和韵律预测等[1]。字音转换的目的是从字符序列生成音素序列[2]。发音词典由一种语言的单词
‑
发音对组成[3]，对字音转换至关重要。由于发音词典不可能涵盖一种语言的所有单词，所以通常采用一个在发音词典上训练的字音转换模型，它可以生成词典中不存在的词的发音[4]。然而，发音词典是特定于语言的，为一种新语言构建一个发音词典需要在语言和音素标注系统方面的专业知识，这比获取该语言的语音录音更费力、耗时和困难[3]。即使已经有一些开源的字音转换工具，但考虑到全球大约有7,000种语言，其所涵盖的语言数量仍然十分有限。
[0003]另一方面，语音合成系统的后端通常由将语言特征转换为声学特征的声学模型和从声学特征重建语音波形的声码器组成。近年来，基于神经网络的序列到序列声学建模[5,6,7]已成为主流方法，其相比基于隐马尔可夫模型和深度神经网络的传统统计参数语音合成方法具有更好的性能。一些序列到序列声学模型可以直接将字符序列作为输入[5]，因此不再需要发音词典和字音转换模型。然而，与使用音素序列相比...

【技术保护点】

【技术特征摘要】
1.一种不依赖发音词典的语音合成系统，其特征在于，包括：语种无关的语音识别模型、文本
‑
发音表征预测模型、发音表征
‑
声学预测模型和神经网络声码器；其中，所述语种无关的语音识别模型，能在训练阶段从输入的目标语种的语音波形提取出发音表征，将所述发音表征提供给所述文本
‑
发音表征预测模型和发音表征
‑
声学预测模型用于训练，以得到训练好的所述文本
‑
发音表征预测模型和发音表征
‑
声学预测模型；所述文本
‑
发音表征预测模型，能在训练好后根据输入的待合成文本的字符序列预测为发音表征，并输出至训练好的所述发音表征
‑
声学预测模型；所述发音表征
‑
声学预测模型，与所述神经网络声码器连接，能根据所述文本
‑
发音表征预测模型预测得到的发音表征生成梅尔谱；所述神经网络声码器，能将所述发音表征
‑
声学预测模型生成的梅尔谱重构成与所述待合成文本对应的语音波形。2.根据权利要求1所述的不依赖发音词典的语音合成系统，其特征在于，所述语种无关的语音识别模型包括：顺次连接的wav2vec 2.0模型、第一线性层和第二线性层；其中，所述wav2vec 2.0模型采用不具有量化模块的wav2vec 2.0模型，其训练输入为具有IPA音素转录的多语种语料库；所述第一线性层为能将1024维的上下文表征(C)映射到512维瓶颈表征(B)的瓶颈层；所述第二线性层为能根据所述第一线性层输出的瓶颈表征预测类别概率(P)的分类层；该语种无关的语音识别模型的训练目标为类别概率和目标IPA序列之间的CTC损失。3.根据权利要求1或2所述的不依赖发音词典的语音合成系统，其特征在于，所述文本
‑
发音表征预测模型的结构采用基于Tacotron2[5]的序列到序列结构；该文本
‑
发音表征预测模型训练的误差函数为预测发音表征和提取的发音表征之间的均方误差和均绝对误差，再加上停止符号的二分类交叉熵。4.根据权利要求1或2所述的不依赖发音词典的语音合成系统，其特征在于，所述发音表征
‑
声...

【专利技术属性】
技术研发人员：刘畅，凌震华，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人