语音合成的处理方法、装置、电子设备和计算机存储介质制造方法及图纸

技术编号:40968446 阅读:26 留言:0更新日期:2024-04-18 20:49
本发明专利技术实施例提供了一种语音合成的处理方法、装置、电子设备和计算机可读存储介质,涉及语音合成技术领域,包括:基于预设的多语种文本样本对预设的文本模型进行训练,得到训练后的目标文本模型,然后将所述目标文本模型中第一嵌入层的参数,复制至预设的语音合成模型中的第二嵌入层,得到初始语音合成模型,再对所述初始语音合成模型中的所述第二嵌入层进行冻结,并基于预设的文本音频对样本对所述初始语音合成模型进行训练,即可得到训练后的语音合成模型。本发明专利技术实施例针对低资源语种的TTS场景,即便是少量的文本音频对样本数据,训练后的语音合成模型也可以实现比较好的合成效果。

【技术实现步骤摘要】

本专利技术涉及语音合成,特别是涉及一种语音合成的处理方法、一种语音合成的处理装置、一种电子设备和一种计算机可读存储介质。


技术介绍

1、语音合成(tts,text-to-speech)是一种能够根据输入文本生成对应音频的技术。tts现在广泛应用于toc(to customer,针对个人用户)和tob(to business,针对企业)等场景。

2、随着tts技术的不断发展,用户对于tts合成效果和应用领域的要求也在逐步提高,比如,在有声书场景下,语音合成不再局限于合成自然风格的音频,而是合成具有多情感的语句;再比如,合成语种也不再局限于如中文、英文这种多资源语种、方言以及低资源语种也有其特定的应用场景。

3、tts发展到现阶段,在低资源语种的语音合成方面仍存在很多困境。比如,数据稀缺(文本和音频数据量不足,对于模型训练来讲,数据不足会导致训练欠佳,从而影响最终效果)、数据质量不佳(低资源语种往往由于数据收集困难,使得其数据质量无法保证,常见的问题有录音质量不佳或者文本转录不对应等)、语言特性研究少(由于该语种或者方言使用的人较少,往本文档来自技高网...

【技术保护点】

1.一种语音合成的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音合成的处理方法,其特征在于,所述基于预设的多语种文本样本对预设的文本模型进行训练,得到训练后的目标文本模型,包括:

3.根据权利要求1所述的语音合成的处理方法,其特征在于,所述基于预设的文本音频对样本对所述初始语音合成模型进行训练,得到训练后的语音合成模型,包括:

4.根据权利要求2或3所述的语音合成的处理方法,其特征在于,将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型,得到所述预训练模型输出的第一结果,包括:

5.根据权利要求1所述的语音合成...

【技术特征摘要】

1.一种语音合成的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音合成的处理方法,其特征在于,所述基于预设的多语种文本样本对预设的文本模型进行训练,得到训练后的目标文本模型,包括:

3.根据权利要求1所述的语音合成的处理方法,其特征在于,所述基于预设的文本音频对样本对所述初始语音合成模型进行训练,得到训练后的语音合成模型,包括:

4.根据权利要求2或3所述的语音合成的处理方法,其特征在于,将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型,得到所述预训练模型输出的第一结果,包括:

5.根据权利要求1所述的语音合成的处理方法,其特征在于,还包括:

6...

【专利技术属性】
技术研发人员:李睿端李健陈明武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1