语音合成方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:29073158 阅读:18 留言:0更新日期:2021-06-30 09:29
本申请涉及语音处理领域,提供了语音合成方法、装置、设备和计算机可读存储介质,以较低的成本和较高的效率,将文本转换为可播音的语音。所述方法包括:将目标文本转换为对应的目标音素序列;采用已训练端到端语音合成模型提取目标音素序列的目标声学特征,其中,已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到;将目标声学特征转换成语音波形后输出。本申请的技术方案极大地降低了对有标注语音数据的依赖,采用已训练端到端语音合成模型提取目标音素序列的目标声学特征,将目标声学特征转换成语音波形后输出,成本也一样低廉并且效率高。成本也一样低廉并且效率高。成本也一样低廉并且效率高。

【技术实现步骤摘要】
语音合成方法、装置、设备和计算机可读存储介质


[0001]本专利技术涉及语音处理领域,特别涉及一种语音合成方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]近年来,随着深度学习领域的飞速发展,文本转语音(TTS,Text To Speech) 技术也取得了显著的进展。编码器和解码器的端到端TTS模型目前已经能够合成较为自然的语音。然而,这种端到端TTS模型的训练成本却非常高。一般而言,训练这种端到端的TTS模型需要十几或者二十个小时的有标注语音才能达到自然的效果,而录制这些标注的语音既昂贵又繁杂。
[0003]为了解决TTS模型的训练对数据的严重依赖,现有的一种语音合成方法是说话人自适应(SA)技术。所谓SA,是指通过用少量的新说话人的数据对多说话人的基础模型进行微调,以达到能够用新说话人声音合成的目的的一项技术。虽然SA技术能够通过少量的新说话人数据快速建模,最后用新说话人声音合成不错的语音,自然度和相似度都达到可用程度。然而,SA技术建立在多说话人的基础模型之上,换言之,若缺乏足够的多说话人的标注数据,则仍然无法使用SA技术。
[0004]综上所述,现有的语音合成方法都是基于大量标注数据,尤其是低资源语种的TTS,更加依赖大量标注数据。

技术实现思路

[0005]本申请提供一种语音合成方法、装置、设备和计算机可读存储介质,以较低的成本和较高的效率,将文本转换为可播音的语音。
[0006]一方面,本申请提供了一种语音合成方法,包括:
[0007]将目标文本转换为对应的目标音素序列;
[0008]采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征,所述已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到;
[0009]将所述目标声学特征转换成语音波形后输出。
[0010]可选地,所述采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征,包括:编码所述目标音素序列,将所述目标音素序列映射为所述目标文本的高维文本特征序列;对所述目标文本的高维文本特征序列进行声学解码,预测所述目标音素序列的目标声学特征。
[0011]可选地,所述对所述目标文本的高维文本特征序列进行声学解码,预测所述目标音素序列的目标声学特征之前,所述方法还包括:获取语音特征序列;将所述目标文本的高维文本特征序列与所述语音特征序列对齐,得到所述目标文本的对齐高维文本特征序列。
[0012]可选地,在将所述目标文本的高维文本特征序列与所述语音特征序列对齐时,加入目标说话人向量来控制目标说话人的音色。
[0013]可选地,所述将目标文本转换为对应的目标音素序列,包括:根据所述目标文本的正则特征对所述目标文本进行语音初步处理,提取所述目标文本的辅助性特征;采用所述目标文本的辅助性特征对所述目标文本的正则特征进行前端解码,得到具备语音播放标准的目标音素序列。
[0014]可选地,所述根据所述目标文本的正则特征对所述目标文本进行语音初步处理,提取所述目标文本的辅助性特征,包括:将所述目标文本的正则特征输入预先构建的语音初步处理模块中,对所述目标文本进行文字分割和词性标注;所述采用所述目标文本的辅助性特征对所述目标文本的正则特征进行前端解码,得到具备语音播放标准的目标音素序列,包括:将所述目标文本的正则特征和所述目标文本的辅助性特征同时输入预先构建的文本解码模块中,得到具备语音播放标准的目标音素序列。
[0015]可选地,所述方法还包括:采用无标注语音数据和有标注语音数据对所述端到端语音合成模型进行训练,得到所述已训练端到端语音合成模型。
[0016]可选地,所述采用无标注语音数据和有标注语音数据对所述端到端语音合成模型进行训练,得到所述已训练端到端语音合成模型,包括:采用所述无标注语音数据对量子化向量

变分自编码器VQ

VAE模型进行训练,提取无监督语言单元;将所述无监督语言单元和所述有标注语音数据输入所述端到端语音合成模型进行训练,得到所述已训练端到端语音合成模型。
[0017]另一方面,本申请提供了一种语音合成装置,包括:
[0018]文转音模块,用于将目标文本转换为对应的目标音素序列;
[0019]声学特征提取模块,用于采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征,所述已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到;
[0020]语音生成模块,用于将所述目标声学特征转换成语音波形后输出。
[0021]第三方面,本申请提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如上任一实施例所述的语音合成方法中的步骤。
[0022]第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的语音合成方法中的步骤。
[0023]从上述本申请提供的技术方案可知,由于已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到,而无标注语音数据供应巨大,获取成本非常低,极大地降低了对有标注语音数据的依赖,因此,采用无标注语音数据对端到端语音合成模型进行训练的成本低、效率高,从而采用已训练端到端语音合成模型提取目标音素序列的目标声学特征,将目标声学特征转换成语音波形后输出,成本也一样低廉并且效率高。
附图说明
[0024]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
[0025]图1是本申请实施例提供的语音合成方法的流程图;
[0026]图2是本申请实施例提供的语音合成装置的结构示意图;
[0027]图3是本申请另一实施例提供的语音合成装置的结构示意图;
[0028]图4是本申请实施例提供的设备的结构示意图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
[0031]在本说明书中,为了便于描述,附图中所示的各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:将目标文本转换为对应的目标音素序列;采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征,所述已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到;将所述目标声学特征转换成语音波形后输出。2.如权利要求1所述语音合成方法,其特征在于,所述采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征,包括:编码所述目标音素序列,将所述目标音素序列映射为所述目标文本的高维文本特征序列;对所述目标文本的高维文本特征序列进行声学解码,预测所述目标音素序列的目标声学特征。3.如权利要求2所述语音合成方法,其特征在于,所述对所述目标文本的高维文本特征序列进行声学解码,预测所述目标音素序列的目标声学特征之前,所述方法还包括:获取语音特征序列;将所述目标文本的高维文本特征序列与所述语音特征序列对齐,得到所述目标文本的对齐高维文本特征序列。4.如权利要求3所述语音合成方法,其特征在于,所述方法还包括:在将所述目标文本的高维文本特征序列与所述语音特征序列对齐时,加入目标说话人向量来控制目标说话人的音色。5.如权利要求1所述语音合成方法,其特征在于,所述将目标文本转换为对应的目标音素序列,包括:根据所述目标文本的正则特征对所述目标文本进行语音初步处理,提取所述目标文本的辅助性特征;采用所述目标文本的辅助性特征对所述目标文本的正则特征进行前端解码,得到具备语音播放标准的目标音素序列。6.如权利要求5所述语音合成方法,其特征在于,所述根据所述目标文本的正则特征对所述目标文本进行语音初步处理,提取所述目标文本的辅助性特征,包括:将所述目标文本的正则特征输入预先构建的语音初步处理模块中,对所述目标文本进行文字分割和词性标注...

【专利技术属性】
技术研发人员:张海桐林悦
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1