【技术实现步骤摘要】
本专利技术涉及语音合成,特别是涉及一种语音合成的处理方法、一种语音合成的处理装置、一种电子设备和一种计算机可读存储介质。
技术介绍
1、语音合成(tts,text-to-speech)是一种能够根据输入文本生成对应音频的技术。tts现在广泛应用于toc(to customer,针对个人用户)和tob(to business,针对企业)等场景。
2、随着tts技术的不断发展,用户对于tts合成效果和应用领域的要求也在逐步提高,比如,在有声书场景下,语音合成不再局限于合成自然风格的音频,而是合成具有多情感的语句;再比如,合成语种也不再局限于如中文、英文这种多资源语种、方言以及低资源语种也有其特定的应用场景。
3、tts发展到现阶段,在低资源语种的语音合成方面仍存在很多困境。比如,数据稀缺(文本和音频数据量不足,对于模型训练来讲,数据不足会导致训练欠佳,从而影响最终效果)、数据质量不佳(低资源语种往往由于数据收集困难,使得其数据质量无法保证,常见的问题有录音质量不佳或者文本转录不对应等)、语言特性研究少(由于该语种或者
...【技术保护点】
1.一种语音合成的处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的语音合成的处理方法,其特征在于,所述基于预设的多语种文本样本对预设的文本模型进行训练,得到训练后的目标文本模型,包括:
3.根据权利要求1所述的语音合成的处理方法,其特征在于,所述基于预设的文本音频对样本对所述初始语音合成模型进行训练,得到训练后的语音合成模型,包括:
4.根据权利要求2或3所述的语音合成的处理方法,其特征在于,将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型,得到所述预训练模型输出的第一结果,包括:
5.根据权利
...【技术特征摘要】
1.一种语音合成的处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的语音合成的处理方法,其特征在于,所述基于预设的多语种文本样本对预设的文本模型进行训练,得到训练后的目标文本模型,包括:
3.根据权利要求1所述的语音合成的处理方法,其特征在于,所述基于预设的文本音频对样本对所述初始语音合成模型进行训练,得到训练后的语音合成模型,包括:
4.根据权利要求2或3所述的语音合成的处理方法,其特征在于,将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型,得到所述预训练模型输出的第一结果,包括:
5.根据权利要求1所述的语音合成的处理方法,其特征在于,还包括:
6...
【专利技术属性】
技术研发人员:李睿端,李健,陈明,武卫东,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。