一种音色、口音可控的中英文语音合成方法及装置制造方法及图纸

技术编号:29974869 阅读:15 留言:0更新日期:2021-09-08 09:57
本发明专利技术提出一种音色、口音可控的中英文语音合成方法及装置,所述方法包括了训练阶段和推理阶段,在训练阶段包括:获取语音训练数据库;将不同语言的文本处理为统一表征方式,并对音频提取声学特征;然后分别进行处理得到文本向量、说话人识别向量及语言识别向量,然后,输出最终的说话人识别向量与语言识别向量,并计算两者的格拉姆矩阵;再将文本向量、最终的说话人识别向量与语言识别向量共同输入到解码器得到预测声学特征;采用损失函数对预测声学特征、声学特征、格拉姆矩阵进行梯度计算,对整个模型进行训练。随后通过训练的模型进行推理阶段实现音频输出,实现了中英文语音合成中对音色变换、口音强弱的控制。口音强弱的控制。口音强弱的控制。

【技术实现步骤摘要】
一种音色、口音可控的中英文语音合成方法及装置


[0001]本专利技术涉及语音处理
,具体来说涉及一种音色、口音可控的中英文语音合成方法及装置。

技术介绍

[0002]语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意的可听的语音。而今,对于中英文混合文本的语音合成任务在各方面都涌现出大量需求,然而如何在保持说话人一致性的条件下,用单语数据建立多说话人、多语言的语言合成系统,并且对音色变换、口音强弱进行控制一直是一个难题。
[0003]传统的中英文语音合成系统依赖单人多语的语音数据库(数据录制困难、价格昂贵),并且不能对音色、口音等进行控制。
[0004]本专利技术通过输入目标音频,并从中提取说话人识别向量和语音识别向量,通过注意力网络得到了文本相关的最终说话人识别向量及语言识别向量,并通过使两者的格拉姆矩阵接近零来减小音色和语言的空间依赖,本专利技术可以通过输入不同的目标音频来控制语音合成系统的音色,通过不同的尺度系数来控制口音强弱,能在保持说话人一致性的条件下实现稳定、高音质的中英文语音合成。

技术实现思路

[0005]本专利技术所要解决的技术问题是:提出一种音色、口音可控的中英文语音合成方法及装置,解决中英文的语音合成中音色、口音控制的问题。
[0006]本专利技术解决上述问题所采取的技术方案是:
[0007]一种音色、口音可控的中英文语音合成方法,其特征在于,包括训练阶段和推理阶段,所述训练阶段包括以下步骤:
[0008]步骤S11、获取多说话人、单语言的语音训练数据库;
[0009]步骤S12、将不同语言的文本处理为统一表征方式,并对音频提取声学特征;
[0010]步骤S13、将步骤S12处理后的文本输入文本编码器,得到文本向量;并将步骤S12得到的声学特征分别输入说话人特征提取器及语言特征提取器,得到说话人识别向量及语言识别向量;
[0011]步骤S14、将步骤S13得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到注意力网络,输出最终的说话人识别向量与语言识别向量,并计算两者的格拉姆矩阵GramMatrix;
[0012]步骤S15、将步骤S13得到的文本向量、步骤S14得到的最终的说话人识别向量与语言识别向量共同输入到解码器decoder得到预测声学特征;
[0013]步骤S16、采用损失函数对步骤S15得到的预测声学特征、步骤S12得到的声学特征、步骤S14得到的格拉姆矩阵进行梯度计算,对整个模型进行训练。
[0014]进一步的,所述推理阶段包括以下步骤:
[0015]步骤S21.对待合成文本进行规范化处理,并处理为统一表征方式;
[0016]步骤S22.将文本及目标音频分别输入经训练的文本编码器、说话人特征提取器、语言特征提取器,得到文本向量、说话人识别向量、语言识别向量;
[0017]步骤S23.将步骤S22得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到经训练的注意力网络,得到最终的说话人识别向量与语言识别向量;
[0018]步骤S24.将步骤S22得到的文本向量、步骤S23得到的说话人识别向量与语言识别向量共同输入到经训练的解码器,得到预测声学特征,通过对语言识别向量乘以不同的尺度来对预测声学特征的口音强弱进行控制;
[0019]步骤S25.采用声码器将步骤S24得到的预测声学特征转换为音频。
[0020]进一步的,为了准备训练数据,所述步骤S11还包括:每种语言各具有一定数量的说话人单语语音训练数据库,并涵盖中英文文本及对应的音频。
[0021]进一步的,所述步骤S12中的统一表征方式为音素、Unicode编码或字符统一的表达方式;提取的声学特征包括梅尔频谱特征、线性预测系数特征LPC、线性频谱特征、基频F0、频谱包络、以及非周期信号参数。
[0022]进一步的,所述步骤S13中的文本编码器和步骤S15中的解码器为循环神经网络结构RNN或自注意力网络结构Transformer。
[0023]进一步的,为了对音色、口音进行控制,所述步骤S14具体为:在注意力网络中,文本编码向量作为查询向量query,说话人识别向量或语言识别向量作为键值key

value,输出最终的说话人识别向量与语言识别向量与文本编码向量步长一致。
[0024]进一步的,为了重构声学特征,步骤S15还包括:
[0025]解码器包括但不限于循环神经网络结构RNN、自注意力网络结构Transformer等;
[0026]进一步的,为了将对音色、口音可控的语音合成模型进行训练,所述步骤S16中的损失函数为均方误差损失函数M步骤SE或平均绝对误差损失函数MAE。
[0027]进一步的,所述步骤S16为:通过预测声学特征与真实声学特征之间的损失函数实现对声学特征的重构,格拉姆矩阵与0之间的损失函数保证说话人识别特征与语言识别特征的正交,通过梯度回传对整个模型进行训练。
[0028]进一步的,为了将预测声学特征转换为音频,所述步骤S25中的声码器为直接将声学特征转换为音频信号的传统信号处理算法或深度学习网络预训练模型。
[0029]还提出一种音色、口音可控的中英文语音合成的装置,包括:
[0030]文本处理模块,用于将中英文文本规范化处理,并且将文本转换为统一表征方式;
[0031]信息编码模块,用于对经过文本处理模块处理后的文本进行编码,得到文本向量;对目标音频进行编码,得到说话人识别向量和语言识别向量;
[0032]注意力控制模块,用于将信息编码模块得到的文本编码向量作为查询向量,将信息编码模块得到的说话人识别向量以及语言识别向量作为键值,输出注意力加权后的最终说话人识别向量和语言识别向量;
[0033]信息解码模块,用于输入经信息编码模块得到的文本向量、注意力控制模块得到的最终说话人识别向量及语言识别向量,输出预测声学特征;
[0034]声码器模块,用于输入信息解码模块得到的预测声学特征,输出音频。
[0035]本专利技术的有益效果是:在编码解码的语音合成模型结构中,通过对目标音频提取
与文本向量每个步长相对应的说话人识别向量及语言识别向量,计算格拉姆矩阵来保证两者正交,实现了中英文语音合成中对音色变换、口音强弱的控制。
附图说明
[0036]图1为本专利技术实施例所述的一种音色、口音可控的中英文语音合成方法的流程示意图;
[0037]图2为本专利技术实施例所述的一种音色、口音可控的中英文语音合成模型的结构及训练流程图。
具体实施方式
[0038]下面将结合附图对本专利技术的实施方式进行详细描述。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解的,本专利技术不受这里描述的实施例的限制。
[0039]实施例1
[0040]如图1所示,本专利技术实施例的一种音色、口音可控的中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音色、口音可控的中英文语音合成方法,其特征在于,包括训练阶段和推理阶段,所述训练阶段包括以下步骤:步骤S11、获取多说话人、单语言的语音训练数据库;步骤S12、将不同语言的文本处理为统一表征方式,并对音频提取声学特征;步骤S13、将步骤S12处理后的文本输入文本编码器,得到文本向量;并将步骤S12得到的声学特征分别输入说话人特征提取器及语言特征提取器,得到说话人识别向量及语言识别向量;步骤S14、将步骤S13得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到注意力网络,输出最终的说话人识别向量与语言识别向量,并计算两者的格拉姆矩阵GramMatrix;步骤S15、将步骤S13得到的文本向量、步骤S14得到的最终的说话人识别向量与语言识别向量共同输入到解码器decoder得到预测声学特征;步骤S16、采用损失函数对步骤S15得到的预测声学特征、步骤S12得到的声学特征、步骤S14得到的格拉姆矩阵进行梯度计算,对整个模型进行训练。2.根据权利要求1所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述推理阶段包括以下步骤:步骤S21.对待合成文本进行规范化处理,并处理为统一表征方式;步骤S22.将文本及目标音频分别输入经训练的文本编码器、说话人特征提取器、语言特征提取器,得到文本向量、说话人识别向量、语言识别向量;步骤S23.将步骤S22得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到经训练的注意力网络,得到最终的说话人识别向量与语言识别向量;步骤S24.将步骤S22得到的文本向量、步骤S23得到的说话人识别向量与语言识别向量共同输入到经训练的解码器,得到预测声学特征,通过对语言识别向量乘以不同的尺度来对预测声学特征的口音强弱进行控制;步骤S25.采用声码器将步骤S24得到的预测声学特征转换为音频。3.根据权利要求1或2所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述步骤S11还包括:每种语言各具有一定数量的说话人单语语音训练数据库,并涵盖中英文文本及对应的音频。4.根据权利要求1或2所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述步骤S12中的统一表征方式为音素、Unicode编...

【专利技术属性】
技术研发人员:朱海王昆周琳珉刘书君
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1