【技术实现步骤摘要】
一种语音合成方法及装置、存储介质
本专利技术涉及语音处理技术,尤其涉及一种语音合成方法及装置、存储介质。
技术介绍
目前,基于编码器-解码器结构的神经网络语音合成系统,由于能够实现比传统技术更加接近于人声的语音合成效果,合成的语音更加自然,韵律更加丰富,因此,得到了广泛的关注与应用。然而,现有的语音合成系统在语音合成过程中,只能通过解码器来预测当前语音合成是否完成,可能出现针对表征目标文本的符号序列,例如音素序列,在声学特征预测过程中跳过对部分音素的声学特征预测,产生丢音等情况,导致语音合成结果不准确。
技术实现思路
本专利技术实施例提供一种语音合成方法及装置、存储介质,在语音合成过程中依次预测表征目标文本的符号序列中每一个符号相应的声学特征,保证每个符号都能得到注意,避免出现丢音等情况,从而提高了语音合成结果的准确性。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种语音合成方法,所述方法包括:获取表征目标文本的符号序列,并对所述符号序列中每一个符号分别进 ...
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取表征目标文本的符号序列,并对所述符号序列中每一个符号分别进行编码处理,得到特征向量序列;/n基于预设注意力模型和所述特征向量序列,依次预测所述符号序列中每一个符号对应的声学特征,得到声学特征序列;所述预设注意力模型为具备单调注意力机制和单步转移机制的模型;/n利用所述声学特征序列合成所述目标文本对应的语音。/n
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
获取表征目标文本的符号序列,并对所述符号序列中每一个符号分别进行编码处理,得到特征向量序列;
基于预设注意力模型和所述特征向量序列,依次预测所述符号序列中每一个符号对应的声学特征,得到声学特征序列;所述预设注意力模型为具备单调注意力机制和单步转移机制的模型;
利用所述声学特征序列合成所述目标文本对应的语音。
2.根据权利要求1所述的方法,其特征在于,所述基于预设注意力模型和所述特征向量序列,依次预测所述符号序列中每一个符号对应的声学特征,得到声学特征序列,包括:
在第1解码时刻,获取预设声学特征,并基于所述预设声学特征、所述预设注意力模型和所述特征向量序列,确定第1段声学特征、第1个终止概率和第1个上下文向量;
当第i-1解码时刻确定的第i-1个终止概率小于预设终止概率时,在第i解码时刻,对所述第i-1解码时刻确定的第i-1段声学特征进行预处理,得到第i个查询向量;i为大于1的自然数;
利用所述预设注意力模型,基于所述第i个查询向量、所述第i-1解码时刻确定的第i-1个上下文向量和所述特征向量序列,确定第i个上下文向量;
利用所述第i个查询向量和所述第i个上下文向量,预测出第i段声学特征和第i个终止概率;
当所述第i个终止概率小于所述预设终止概率时,继续在第i+1解码时刻预测第i+1段声学特征和第i+1个终止概率,直至在第m解码时刻预测出的第m个终止概率大于等于所述预设终止概率,停止声学特征预测,并将得到的m段声学特征组成所述声学特征序列;m为大于2的自然数。
3.根据权利要求2所述的方法,其特征在于,所述利用所述预设注意力模型,基于所述第i个查询向量、所述第i-1解码时刻确定的第i-1个上下文向量和所述特征向量序列,确定第i个上下文向量,包括:
利用所述预设注意力模型,确定所述第i个查询向量与所述第i-1个上下文向量之间的能量关系,得到第i个能量结果;
对所述第i个能量结果进行概率转换,得到第i个转移概率;
基于所述第i个转移概率,从所述第i-1个上下文向量和所述特征向量序列中,确定所述第i个上下文向量。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第i个转移概率,从所述第i-1个上下文向量和所述特征向量序列中选取出第i个上下文向量,包括:
当所述第i个转移概率小于或者等于预设转移概率时,将所述第i-1个上下文向量确定为所述第i个上下文向量;
当所述第i个转移概率大于预设所述预设转移概率时,将所述特征向量序列中,从未被确定为上下文向量,且排序最前的特征向量确定为所述第i个上下文向量。
5.根据权利要求要求3所述的方法,其特征在于,所述对所述第i个能量结果进行概率转换,得到第i个转移概率之后,所述方法还包括:
获取前i-1个上下文向量中,与所述第i-1个上下...
【专利技术属性】
技术研发人员:宋伟,武执政,张政臣,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。