语音合成方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号：29073158 阅读：18 留言：0更新日期：2021-06-30 09:29

本申请涉及语音处理领域，提供了语音合成方法、装置、设备和计算机可读存储介质，以较低的成本和较高的效率，将文本转换为可播音的语音。所述方法包括：将目标文本转换为对应的目标音素序列；采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，其中，已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到；将目标声学特征转换成语音波形后输出。本申请的技术方案极大地降低了对有标注语音数据的依赖，采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，将目标声学特征转换成语音波形后输出，成本也一样低廉并且效率高。成本也一样低廉并且效率高。成本也一样低廉并且效率高。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、设备和计算机可读存储介质

[0001]本专利技术涉及语音处理领域，特别涉及一种语音合成方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]近年来，随着深度学习领域的飞速发展，文本转语音(TTS，Text To Speech) 技术也取得了显著的进展。编码器和解码器的端到端TTS模型目前已经能够合成较为自然的语音。然而，这种端到端TTS模型的训练成本却非常高。一般而言，训练这种端到端的TTS模型需要十几或者二十个小时的有标注语音才能达到自然的效果，而录制这些标注的语音既昂贵又繁杂。
[0003]为了解决TTS模型的训练对数据的严重依赖，现有的一种语音合成方法是说话人自适应(SA)技术。所谓SA，是指通过用少量的新说话人的数据对多说话人的基础模型进行微调，以达到能够用新说话人声音合成的目的的一项技术。虽然SA技术能够通过少量的新说话人数据快速建模，最后用新说话人声音合成不错的语音，自然度和相似度都达到可用程度。然而，SA技术建立在多说话人的基础模型之上，换言之，若缺乏足够的多说话人的标注数据，则仍然无法使用SA技术。
[0004]综上所述，现有的语音合成方法都是基于大量标注数据，尤其是低资源语种的TTS，更加依赖大量标注数据。

技术实现思路

[0005]本申请提供一种语音合成方法、装置、设备和计算机可读存储介质，以较低的成本和较高的效率，将文本转换为可播音的语音。
[0006]一方面，本申请提供了一种语音合成方法，包括：
[0007]将目标文本...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：将目标文本转换为对应的目标音素序列；采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征，所述已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到；将所述目标声学特征转换成语音波形后输出。2.如权利要求1所述语音合成方法，其特征在于，所述采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征，包括：编码所述目标音素序列，将所述目标音素序列映射为所述目标文本的高维文本特征序列；对所述目标文本的高维文本特征序列进行声学解码，预测所述目标音素序列的目标声学特征。3.如权利要求2所述语音合成方法，其特征在于，所述对所述目标文本的高维文本特征序列进行声学解码，预测所述目标音素序列的目标声学特征之前，所述方法还包括：获取语音特征序列；将所述目标文本的高维文本特征序列与所述语音特征序列对齐，得到所述目标文本的对齐高维文本特征序列。4.如权利要求3所述语音合成方法，其特征在于，所述方法还包括：在将所述目标文本的高维文本特征序列与所述语音特征序列对齐时，加入目标说话人向量来控制目标说话人的音色。5.如权利要求1所述语音合成方法，其特征在于，所述将目标文本转换为对应的目标音素序列，包括：根据所述目标文本的正则特征对所述目标文本进行语音初步处理，提取所述目标文本的辅助性特征；采用所述目标文本的辅助性特征对所述目标文本的正则特征进行前端解码，得到具备语音播放标准的目标音素序列。6.如权利要求5所述语音合成方法，其特征在于，所述根据所述目标文本的正则特征对所述目标文本进行语音初步处理，提取所述目标文本的辅助性特征，包括：将所述目标文本的正则特征输入预先构建的语音初步处理模块中，对所述目标文本进行文字分割和词性标注...

【专利技术属性】
技术研发人员：张海桐，林悦，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人