语音合成方法、装置、存储介质及电子设备制造方法及图纸

技术编号:33483112 阅读:27 留言:0更新日期:2022-05-19 00:56
本公开涉及一种语音合成方法、装置、存储介质及电子设备,包括:提取目标说话人语音的第一特征向量,并通过说话人特征提取网络在目标说话人语音中提取目标说话人声音特征;根据第一特征向量、目标说话人声音特征和目标说话人语音对第一解码器进行参数调整;通过参数调整后的第一解码器和第二编码器构建目标语音合成模型;将待合成文本和目标说话人声音特征输入目标语音合成模型以合成得到的目标语音。这样,无需完全依赖该说话人特征提取网络对已获得用户授权使用的该说话人声音特征进行提取的能力,也不会在根据已获得用户授权使用的目标说话人语音参数调整时将带噪的音质信息固化在语音合成系统中,保证了语音合成的稳定性和精度。性和精度。性和精度。

【技术实现步骤摘要】
语音合成方法、装置、存储介质及电子设备


[0001]本公开涉及音频处理
,具体地,涉及一种语音合成方法、装置、存储介质及电子设备。

技术介绍

[0002]在语音合成领域,一般的应用场景下,合成需要大量的数据(5h以上)做支持才能有相对稳定的效果。对于大部分用户,按照严格的规范录制5h的数据是不现实的,并且对于常规用户来说,对自身语音进行合成时更关注于合成语音与自身语音在音色音调等方面的效果。如何在保障用户音色效果的情况下,尽可能增强语音合成系统本身的发音稳定性以及提升音质,是需要重点解决的问题。
[0003]现有的语音合成方案中通常需要绝对依赖于解耦能力极强的说话人特征提取网络,也即合成得到的语音与需要合成的已获得用户授权使用的目标说话人语音之间绝对依赖于说话人特征提取网络的能力,但现有技术中的说话人特征提取网络的能力并不能完全达到该场景下的需求;另外,还有语音合成方案会先通过已获得用户授权使用的目标说话人语音对预先训练好的语音合成系统进行再次训练,以实现合成音色上的效果,但由于语音合成系统的目的是需要合成带有音质信息的语音,因此本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取目标说话人语音;通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征;根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器;通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到;将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用户输入的选择指令,所述选择指令用于表征用户想要合成的语音风格;根据所述选择指令在预先训练好的至少一个所述第二编码器中确定目标第二编码器;所述通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型包括:通过所述再训练的第一解码器和所述目标第二编码器构建目标语音合成模型。3.根据权利要求1所述的方法,其特征在于,所述第一编码器为语音识别模型中的编码器,所述语音识别模型为通过第一训练数据预先训练得到,所述第一训练数据中包括多组第一语音训练数据和多组分别与所述第一语音训练数据一一对应的第一文本训练数据,将所述第一语音训练数据作为所述语音识别模型的输入,并将所述第一文本训练数据作为所述语音识别模型的输出,以对所述语音识别模型进行训练。4.根据权利要求3所述的方法,其特征在于,所述第一解码器通过以下方式进行预先训练:确定第二训练数据,所述第二训练数据为多个第二语音训练数据,且包括多种语音风格;通过所述第一编码器分别提取每个第二语音训练数据的第二特征向量,并通过所述说话人特征提取网络分别提取每个第二语音训练数据中的训练数据说话人特征;将所述第二特征向量和所述训练数据说话人特征作为所述第一解码器的输入,并将所述第二语音训练数据作为所述第一解码器的输出,以对所述第一解码器进行预先训练。5.根据权利要求3所述的方法,其特征在于,所述第二编码器通过以下方式进行预先训练:确定第三训...

【专利技术属性】
技术研发人员:张楚雄潘俊杰殷翔马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1