一种不依赖发音词典的语音合成系统及方法技术方案

技术编号:33482462 阅读:11 留言:0更新日期:2022-05-19 00:56
本发明专利技术公开了一种不依赖发音词典的语音合成系统及方法,系统包括:语种无关的语音识别模型、文本

【技术实现步骤摘要】
一种不依赖发音词典的语音合成系统及方法


[0001]本专利技术涉及语音信号处理领域,尤其涉及一种语音合成系统及方法。

技术介绍

[0002]语音合成(speech synthesis)旨在使机器像人类一样流畅自然地说话,它具有广泛的应用,例如语音助手和有声小说。一个语音合成系统通常由两部分组成:前端和后端。前端侧重于文本分析,其将文本序列转换为语言学特征,它具有一系列功能,如文本归一化、字音转换、分词、词性标注和韵律预测等[1]。字音转换的目的是从字符序列生成音素序列[2]。发音词典由一种语言的单词

发音对组成[3],对字音转换至关重要。由于发音词典不可能涵盖一种语言的所有单词,所以通常采用一个在发音词典上训练的字音转换模型,它可以生成词典中不存在的词的发音[4]。然而,发音词典是特定于语言的,为一种新语言构建一个发音词典需要在语言和音素标注系统方面的专业知识,这比获取该语言的语音录音更费力、耗时和困难[3]。即使已经有一些开源的字音转换工具,但考虑到全球大约有7,000种语言,其所涵盖的语言数量仍然十分有限。
[0003]另一方面,语音合成系统的后端通常由将语言特征转换为声学特征的声学模型和从声学特征重建语音波形的声码器组成。近年来,基于神经网络的序列到序列声学建模[5,6,7]已成为主流方法,其相比基于隐马尔可夫模型和深度神经网络的传统统计参数语音合成方法具有更好的性能。一些序列到序列声学模型可以直接将字符序列作为输入[5],因此不再需要发音词典和字音转换模型。然而,与使用音素序列相比,使用字符序列作为输入通常会降低合成语音的自然度和可懂度。
[0004]传统语音合成系统需要在前端文本分析阶段利用发音词典和字音转换模型将输入文本处理为音素序列后,送入后端模块进行声学特征预测与波形重构。字音转换模型通常也是基于发音词典训练得到的。发音词典的建立依赖语种相关的语言专家知识,建立大容量、高精度的发音词典耗时耗力。但如果直接将文本字符序列输入后端声学模型则会降低合成语音质量。
[0005]有鉴于此,特提出本专利技术。

技术实现思路

[0006]本专利技术的目的是提供了一种不依赖发音词典的语音合成系统及方法,能不依赖于发音词典进行语音合成,进而解决现有技术中存在的上述技术问题。
[0007]本专利技术的目的是通过以下技术方案实现的:
[0008]本专利技术实施方式提供一种不依赖发音词典的语音合成系统,包括:
[0009]语种无关的语音识别模型、文本

发音表征预测模型、发音表征

声学预测模型和神经网络声码器;其中,
[0010]所述语种无关的语音识别模型,能在训练阶段从输入的目标语种的语音波形提取出发音表征,将所述发音表征提供给所述文本

发音表征预测模型和发音表征

声学预测模
型用于训练,以得到训练好的所述文本

发音表征预测模型和发音表征

声学预测模型;
[0011]所述文本

发音表征预测模型,能在训练好后根据输入的待合成文本的字符序列预测为发音表征,并输出至训练好的所述发音表征

声学预测模型;
[0012]所述发音表征

声学预测模型,与所述神经网络声码器连接,能根据所述文本

发音表征预测模型预测得到的发音表征生成梅尔谱;
[0013]所述神经网络声码器,能将所述发音表征

声学预测模型生成的梅尔谱重构成与所述待合成文本对应的语音波形。
[0014]本专利技术实施方式还提供一种不依赖发音词典的语音合成方法,采用本专利技术的不依赖发音词典的语音合成系统,先由所述语音合成系统的语种无关的语音识别模型从输入的目标语种的语音波形提取出发音表征,用所述发音表征训练所述语音合成系统的文本

发音表征预测模型和发音表征

声学预测模型,训练完成后得到训练好的文本

发音表征预测模型和发音表征

声学预测模型;按以下步骤进行合成:
[0015]将待合成文本输入训练好的所述语音合成系统的文本

发音表征预测模型,经所述文本

发音表征预测模型根据所述待合成文本的字符序列预测为发音表征,并输出至所述语音合成系统的发音表征

声学预测模型;
[0016]所述发音表征

声学预测模型根据所述发音表征预测生成梅尔谱,并将所述梅尔谱输出至所述语音合成系统的神经网络声码器;
[0017]由所述神经网络声码器将所述梅尔谱重构成与所述待合成文本对应的语音波形。
[0018]与现有技术相比,本专利技术所提供的不依赖发音词典的语音合成系统及方法,其有益效果包括:
[0019]通过采用语种无关的自动语音识别模型,能自动地从目标语种的语音数据中提取发音表征,继而将发音表征用于训练构建语音合成系统的文本

发音表征预测模型和发音表征

声学预测模型,所构建语音合成系统首先从文本字符预测发音表征,再从发音表征生成语音。该系统及方法可以解决传统语音合成方法在构建多语种语音合成系统时依赖语种相关发音词典的问题,解决了发音词典的建立往往需要语言专家参与,耗费大量人力与时间的问题。该方法相对现有从文本字符直接预测语音声学特征的方法可以降低合成语音中的发音错误,提高合成语音的自然度。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0021]图1为本专利技术实施例提供的不依赖发音词典的语音合成系统的整体结构示意图;
[0022]图2为本专利技术实施例提供的不依赖发音词典的语音合成系统的语种无关的语音识别模型的结构示意图;
[0023]图3为本专利技术实施例提供的不依赖发音词典的语音合成系统的语种无关的语音识别模型的发音表征提取过程示意图;
[0024]图4为本专利技术实施例提供的不依赖发音词典的语音合成系统的声学建模过程示意
图。
具体实施方式
[0025]下面结合本专利技术的具体内容,对本专利技术实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,这并不构成对本专利技术的限制。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0026]首先对本文中可能使用的术语进行如下说明:
[0027]术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不依赖发音词典的语音合成系统,其特征在于,包括:语种无关的语音识别模型、文本

发音表征预测模型、发音表征

声学预测模型和神经网络声码器;其中,所述语种无关的语音识别模型,能在训练阶段从输入的目标语种的语音波形提取出发音表征,将所述发音表征提供给所述文本

发音表征预测模型和发音表征

声学预测模型用于训练,以得到训练好的所述文本

发音表征预测模型和发音表征

声学预测模型;所述文本

发音表征预测模型,能在训练好后根据输入的待合成文本的字符序列预测为发音表征,并输出至训练好的所述发音表征

声学预测模型;所述发音表征

声学预测模型,与所述神经网络声码器连接,能根据所述文本

发音表征预测模型预测得到的发音表征生成梅尔谱;所述神经网络声码器,能将所述发音表征

声学预测模型生成的梅尔谱重构成与所述待合成文本对应的语音波形。2.根据权利要求1所述的不依赖发音词典的语音合成系统,其特征在于,所述语种无关的语音识别模型包括:顺次连接的wav2vec 2.0模型、第一线性层和第二线性层;其中,所述wav2vec 2.0模型采用不具有量化模块的wav2vec 2.0模型,其训练输入为具有IPA音素转录的多语种语料库;所述第一线性层为能将1024维的上下文表征(C)映射到512维瓶颈表征(B)的瓶颈层;所述第二线性层为能根据所述第一线性层输出的瓶颈表征预测类别概率(P)的分类层;该语种无关的语音识别模型的训练目标为类别概率和目标IPA序列之间的CTC损失。3.根据权利要求1或2所述的不依赖发音词典的语音合成系统,其特征在于,所述文本

发音表征预测模型的结构采用基于Tacotron2[5]的序列到序列结构;该文本

发音表征预测模型训练的误差函数为预测发音表征和提取的发音表征之间的均方误差和均绝对误差,再加上停止符号的二分类交叉熵。4.根据权利要求1或2所述的不依赖发音词典的语音合成系统,其特征在于,所述发音表征

声...

【专利技术属性】
技术研发人员:刘畅凌震华
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1