一种音色、口音可控的中英文语音合成方法及装置制造方法及图纸

技术编号：29974869 阅读：15 留言：0更新日期：2021-09-08 09:57

本发明专利技术提出一种音色、口音可控的中英文语音合成方法及装置，所述方法包括了训练阶段和推理阶段，在训练阶段包括：获取语音训练数据库；将不同语言的文本处理为统一表征方式，并对音频提取声学特征；然后分别进行处理得到文本向量、说话人识别向量及语言识别向量，然后，输出最终的说话人识别向量与语言识别向量，并计算两者的格拉姆矩阵；再将文本向量、最终的说话人识别向量与语言识别向量共同输入到解码器得到预测声学特征；采用损失函数对预测声学特征、声学特征、格拉姆矩阵进行梯度计算，对整个模型进行训练。随后通过训练的模型进行推理阶段实现音频输出，实现了中英文语音合成中对音色变换、口音强弱的控制。口音强弱的控制。口音强弱的控制。

全部详细技术资料下载

【技术实现步骤摘要】
一种音色、口音可控的中英文语音合成方法及装置

[0001]本专利技术涉及语音处理
，具体来说涉及一种音色、口音可控的中英文语音合成方法及装置。

技术介绍

[0002]语音合成是一种将文本信息转换为语音信息的技术，即将文字信息转换为任意的可听的语音。而今，对于中英文混合文本的语音合成任务在各方面都涌现出大量需求，然而如何在保持说话人一致性的条件下，用单语数据建立多说话人、多语言的语言合成系统，并且对音色变换、口音强弱进行控制一直是一个难题。
[0003]传统的中英文语音合成系统依赖单人多语的语音数据库(数据录制困难、价格昂贵)，并且不能对音色、口音等进行控制。
[0004]本专利技术通过输入目标音频，并从中提取说话人识别向量和语音识别向量，通过注意力网络得到了文本相关的最终说话人识别向量及语言识别向量，并通过使两者的格拉姆矩阵接近零来减小音色和语言的空间依赖，本专利技术可以通过输入不同的目标音频来控制语音合成系统的音色，通过不同的尺度系数来控制口音强弱，能在保持说话人一致性的条件下实现稳定、高音质的中英文语音合成。

技术实现思路

[0005]本专利技术所要解决的技术问题是：提出一种音色、口音可控的中英文语音合成方法及装置，解决中英文的语音合成中音色、口音控制的问题。
[0006]本专利技术解决上述问题所采取的技术方案是：
[0007]一种音色、口音可控的中英文语音合成方法，其特征在于，包括训练阶段和推理阶段，所述训练阶段包括以下步骤：
[0008]步骤S11...

【技术保护点】

【技术特征摘要】
1.一种音色、口音可控的中英文语音合成方法，其特征在于，包括训练阶段和推理阶段，所述训练阶段包括以下步骤：步骤S11、获取多说话人、单语言的语音训练数据库；步骤S12、将不同语言的文本处理为统一表征方式，并对音频提取声学特征；步骤S13、将步骤S12处理后的文本输入文本编码器，得到文本向量；并将步骤S12得到的声学特征分别输入说话人特征提取器及语言特征提取器，得到说话人识别向量及语言识别向量；步骤S14、将步骤S13得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到注意力网络，输出最终的说话人识别向量与语言识别向量，并计算两者的格拉姆矩阵GramMatrix；步骤S15、将步骤S13得到的文本向量、步骤S14得到的最终的说话人识别向量与语言识别向量共同输入到解码器decoder得到预测声学特征；步骤S16、采用损失函数对步骤S15得到的预测声学特征、步骤S12得到的声学特征、步骤S14得到的格拉姆矩阵进行梯度计算，对整个模型进行训练。2.根据权利要求1所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述推理阶段包括以下步骤：步骤S21.对待合成文本进行规范化处理，并处理为统一表征方式；步骤S22.将文本及目标音频分别输入经训练的文本编码器、说话人特征提取器、语言特征提取器，得到文本向量、说话人识别向量、语言识别向量；步骤S23.将步骤S22得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到经训练的注意力网络，得到最终的说话人识别向量与语言识别向量；步骤S24.将步骤S22得到的文本向量、步骤S23得到的说话人识别向量与语言识别向量共同输入到经训练的解码器，得到预测声学特征，通过对语言识别向量乘以不同的尺度来对预测声学特征的口音强弱进行控制；步骤S25.采用声码器将步骤S24得到的预测声学特征转换为音频。3.根据权利要求1或2所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述步骤S11还包括：每种语言各具有一定数量的说话人单语语音训练数据库，并涵盖中英文文本及对应的音频。4.根据权利要求1或2所述的一种音色、口音可控的中英文语音合成方法，其特征在于，所述步骤S12中的统一表征方式为音素、Unicode编...

【专利技术属性】
技术研发人员：朱海，王昆，周琳珉，刘书君，
申请(专利权)人：四川启睿克科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人