语音合成方法和相关设备、装置、介质制造方法及图纸

技术编号:30317840 阅读:28 留言:0更新日期:2021-10-09 23:20
本申请公开了一种语音合成方法和相关设备、装置、介质,其中,语音合成方法包括:获取以待合成语种表达的待合成文本的待合成音素;利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理,得到合成语谱图;其中,语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的,样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示,对象特征表示用于表征音色特征、发音特征中至少一者,样本对象包括目标对象及与目标对象的相关对象,且相关对象的对象特征表示与目标对象的对象特征表示相关。上述方案,能够提高语音合成质量。能够提高语音合成质量。能够提高语音合成质量。

【技术实现步骤摘要】
语音合成方法和相关设备、装置、介质


[0001]本申请涉及音频处理
,特别是涉及一种语音合成方法和相关设备、装置、介质。

技术介绍

[0002]随着电子信息技术的发展,语音合成技术已经逐渐应用于国际会议、日常沟通等诸多场景。
[0003]目前,传统语音合成技术与音频数据强相关,一般而言,音频数据质量越高,语音合成质量越好。然而,在目标对象所采用的发言语种为小语种等诸如此类音频数据较难收集的情况下,通常面临着音频数据资源稀缺等问题,由此直接影响语音合成的质量。有鉴于此,如何提高语音合成质量成为亟待解决的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种语音合成方法和相关设备、装置、介质,能够提高语音合成质量。
[0005]为了解决上述技术问题,本申请第一方面提供了一种语音合成方法,包括:获取以待合成语种表达的待合成文本的待合成音素;利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理,得到合成语谱图;其中,语音合成模型是利用样本对象的样本数据训练预设语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取以待合成语种表达的待合成文本的待合成音素;利用语音合成模型对所述待合成音素、待合成对象的对象特征表示和所述待合成语种的语种特征表示进行合成处理,得到合成语谱图;其中,所述语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的,所述样本数据包括所述样本对象的第一音频、所述样本对象的对象特征表示和所述第一音频对应发言语种的语种特征表示,所述对象特征表示用于表征音色特征、发音特征中至少一者,所述样本对象包括目标对象及与所述目标对象的相关对象,且所述相关对象的对象特征表示与所述目标对象的对象特征表示相关。2.根据权利要求1所述的方法,其特征在于,所述相关对象的筛选步骤包括:获取使用发言语种发言的发言对象的第二音频;其中,所述发言对象包括所述目标对象和若干候选对象;基于所述第二音频,获取所述发言对象的对象特征表示和所述发言语种的语种特征表示;基于所述对象特征表示的聚类结果选择所述候选对象,得到所述相关对象。3.根据权利要求2所述的方法,其特征在于,所述基于所述对象特征表示的聚类结果选择所述候选对象,得到所述相关对象,包括:将所述发言对象的对象特征表示进行聚类,得到若干特征集合;将所述目标对象的对象特征表示所在的特征集合,作为目标集合;选择所述目标集合内所述候选对象,作为所述相关对象。4.根据权利要求2所述的方法,其特征在于,所述预设语音网络包括基线网络,所述发言对象的对象特征表示和所述发言语种的语种特征表示是利用所述第二音频训练所述基线网络而得到的。5.根据权利要求4所述的方法,其特征在于,所述基于所述第二音频,获取所述发言对象的对象特征表示和所述发言语种的语种特征表示,包括:提取所述第二音频的第一音素,并获取所述第二音频对应的发言对象的初始对象表示和所述第二音频对应的发言语种的初始语种表示;利用所述第一音素、所述初始对象表示和所述初始语种表示训练所述基线网络,以优化所述基线网络的网络参数、所述初始对象表示和所述初始语种表示;响应于所述基线网络的训练结果满足第一条件,将最新优化得到的初始对象表示作为所述对象特征表示,并将最新优化得到的初始语种表示作为所述语种特征表示。6.根据权利要求5所述的方法,其特征在于,所述基线网络包括:音素编码子网络和解码子网络;所述利用所述第一音素、所述初始对象表示和所述初始语种表示训练所述基线网络,以优化所述基线网络的网络参数、所述初始对象表示和所述初始语种表示,包括:利用所述音素编码子网络对所述第一音素进行编码,得到第一音素表示;利用解码子网络对所述第一音素表示、所述初始对象表示和所述初始语种表示进行解码,得到第一预测语谱图;基于所述第一预测语谱图和所述第二音频的第一实际语谱图之间的差异,优化所述基线网络的网络参数、所述初始对象表示和所述初始语种表示。
7.根据权利要求1所述的方法,其特征在于,所述预设语音网络包括基线网络以及与所述基线网络连接的语谱预测子网络,且所述基线网络包括音素编码子网络和解码子网络;所述语音合成模型的训练步骤包括:提取所述第一音频的第二音素和第二实际语谱图;利用所述音素编码子网络对所述第二音素进行编码,得到第二音素表示;利用所述语谱预测子网络对所述第二音素表示进行预测,得到样本预测语谱表示,并基于所述第二实际语谱图得到样本实际语谱表示;利用解码子网络对所述第二音素表示、所述样本实...

【专利技术属性】
技术研发人员:宋飞豹江源宋锐侯秋侠
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1